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Titel: Verfahren zum Obersetzen von Progranraien far rekon- 

figurierbare Architekturen 

1. EinleitTing 

Die vorliegende Erfindung betrifft das Oberbegrif f lich . Bean- 
spruchte. Damit befaBt sich die vorliegende Erfindung mit der 
Frage, wie rekonf igurierbare Architekturen optimal verWendet 
werden konnen und insbesondere damit, wie Anweisungen in einer 
gegebenen Hochsprache in rekonfigurierbaren Architekturen op- 
timal zur AusfOhrung gebracht werden kdnnen. 

Um in sog. Hochsprachen geschriebene Anweisungen zur Handha- . 
bung von Daten (Programme) in einer jeweiligen, zur Datenhand- 
habung verwendeten Architektur zur Ausftthrung zu bringen, sind 
sog. Compiler bekannt, die die Anweisungen der Hochsprache in 
an die verwendete Architektur besser angepaBte Anweisungen 
tibersetzen. Compiler, die dabei hochparallele Architekturen 
besonders untersttitzen, sir^d demgemaB parallelisierende Compi- 
ler. 

Parallelisierende Compiler nach dem Stand der Technik. verwen- 
den far gewohnlich spezielle Konstrukte wie Semaphore und/oder 
andere Verfahren zur Synchronisation. Dabei werden typischer- 
weise technologiespezif ische Verfahren yerwendet. Bekannte 
Verfahren sind nicht geeignet, um funktional spezifizierte Ar- 
chitekturen mit dem zugehorigen Zeitverhalten und in^jerativ 
spezifizierte Algorithem zu kombinieren. Daher lief em die 
verwendeten Methoden nur in Spezialfailen zufriedenstellende 
Ldsungen. 

ERSATZBLATT (REGEL 26) 
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Compiler ftir rekonfigurierbare Architekturen, insbesondere fiir 
rekonfigurierbaren Prozessoren, verwenden far gewohnlich Ma- 
kros, die speziell fflr die begtiirante rekonfigurierbare Hard- 
ware e^stellt wtiden, wobei fdr die Ersteliung der Makros zu- 
ineist Hardwarebeschreibuhgssprachen wie z;B. Verilog, VHDL 
Oder System-C verwendet werden. Diese Makros werden dann von 
einer gewdhnlichen Hochsprache (z.B. C, C++) aus dem Prograram- 
fluss heraus aufgerufen (instantiiert) . 

Compiler ftir Parallelrechner sind bekannt, die auf einer grob- 
grariularen Struktur^ zumeist basierend auf kompletten Funktio- 
nen oder Thireads Prograinmteile auf ^m^ Prozessoren abbil- 

den. 

Weiterhin sind vektorisierende Compiler bekannt, die eine 
weitgehende lineare Datenverarbeitung, wie z.B. Berechnungen 
grofier Ausdrtlcke in eine vektorisierte Form umwandeln und da- 
mit die Berechnung auf superskalaren Prozessoren und Vektor- 
prozessoren (z.B. Pentium, Cray) ermoglichen. 

Vorliegend wird ein Verfahren zur automatischen Abbildung von 
funktional Oder imperativ formulierten Rechenvorschriften auf 
unterschiedliche Zieltechnologien beschrieben, insbesondere 
auf ASICs, reicohfigurierbaire Bauisteine (FPGAs, DPGAs, VPOs, 
ChessArray, KressArray, Chameleon, etc.; im folgenden unter 
dem Begriff VPO zusaramengefaBt) , sequentielle Prozessoren 
(CISC-/RISC-CPOS, DSPs, etc.; im folgenden unter dem Begriff 
CPU zusammengefaBt) und parallele Rechnersysteme (SMP, MMP, 
etc. ) . Hingewiesen wird insbesondere in diesem Zusammenhang 
auf die folgenden Schutzrechte und Patentanmeldungen desselben 
Anmelders: P 44 16 881.0-53, DE 197 81 412.3, DE 197 81 483.2, 
DE 196 54 846-2-53, DE 196 54 593.5-53, DE 197 04 044.6-53, 
DE 198 80 129.7, DE 198 61 088.2-53, DE 199 80 312.9, 
PCT/DE 00/01869, DE 100 36 627.9-33, DE 100 28 397.7, 
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DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, 
EP 01 102 674.7, PACT13, PACT17, PACT18, PACT22, PACT24, 
PACT25, PACT260S, PACT02, PACT04, PACT08, PACTIO, PACT15, 
PACTlSta), PACT 27, PACT19. Da/fese sind hiermit zu Offenba- 
inirigszwecken voilxomfariglich eingegliedert . 

VPUs bestehen grundsatzlich aus einer mehrdimensionalen homo- 
genen oder inhomogenen, flachen oder hierarchischen Anordung 
(PA) von Zellen (PAEs), die beliebige Funktionen, i.b. logi- 
sche und/oder arithmetische Funktionen und/oder. Speicherfunk- . 
tionen und/oder Netzwerkfunktionen ausfiihren koimen. Den PAEs 
ist typisch eine Ladeeinheit (CT) zugedrdnet, die die Funktion 
der PAEs durch Konf iguration und ggf . Rekonfiguration be- 
stiinnit • 

Das Verfahren basiert auf einem abstrakten parallelen Maschi- 
nenmodell, das neben dem endlichen Automaten auch imperative 
Problemspezifikationen integriert und eine effiziente algo- 
rithmische Ableitung einer Implementierung auf unterschiedli- 
che Technologien ena5glicht. 

Folgende Compilerklassen. sind nach dem. Stand der Technik be- 
kannt : 

^ Klassische Compiler, die hSuf ig Stack-Maschineii-Code geherie- 
ren und fUr sehr einfache Prozessoren geeignet waren, die im 
Wesentlichen als normale Sequenzer ausgestaltet sind. (vgl. 
N.Wirth, Con^ilerbau, Teubner Verlag) . 

Vektorisierender Compiler bauen weitgehend linearen Code, der 
auf spezielle Vektorrechner oder stark gepipelinte Prozessoren 
abgestiinmt ist. Drspriinglich waren diese Compiler fiir Vektor- 
rechner wie CRAY verfUgbar. Moderne Prozessoren wie Pentium 
benotigen aufgrtind der langen Pipelinestruktur ahnliche Ver- 
fahren. Da die einzelnen Rechenschritte vektorisiert (gepipe- 
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lined) ablaufen ist der Code sehr viel effizienter. Allerdings 
bereitet der bedingte Sprung Probieme fUr die Pipeline. Dahef 
ist eine Sprungvor her sage sinnvollr die ein Sprungziel an- 
niinmt. 1st die Annahme f alschy/^ muss jedoch die gesamte Verar- 
beitungspii>eline gelSscht werden. Mit andereri Worten ist jedeir 
Sprung ftaidiese Cbnpiler problematisch^ eine Parallel verar- 
beitung im eigentlichen Sinn ist nicht gegeben. Sprungvorher- 
sagen und ahnliche Mechanismen erfordern einen erheblichen Zu- 
satzaufwand an Hardware- 



Grobgranulare parallele Coitqpiler existieren im eigentlichen 
Sinne ka\m, die Parallelitat . wird typischerweise durch den 
Programmierer oder das Betriebssystem markiert und verwaltet, 
also beipielsweise bei MMP-Computersysteme wie verscheiden IBM 
Architekturen, ASCI Red, etc. zumeist auf Thread-Ebene durch- 
geftihrt. Ein Thread ist ein weitgehend unabhangiger Prograrara- 
block Oder gar ein anderes Programm. Threads sind daher grob- 
granular einfach zu parallelisieren. Die Synchronisation und 
Datenkonsistenz ist vom Programmierer bzw. dem Betriebssystem 
sicherzustellen. Dies ist aufwendig zu prograramieren und er- 
fordert einen wesent lichen * Ant eil der Rechenleistung eines 
Parallelrechner, Zudem. ist durch diese grobe . Parallelisierung . 
nur ein Bruchteil djsr eigentlich m^glichen Parallelitat tat- 
sachtlich hutzbar. 

Feingranulare parallele (z.B. VLIW) Compiler versuchen die 
Parallelitat feingraunlar in VLIW Rechenwerke abzubilden, die 
mehrere Rechenoperationen in einem Takt parallel ausftihren 
konnen aber einen gemeinsamen Registersatz besitzen^ Ein we- 
sentliches Problem stellt dieser limitierte Registersatz dar, 
da er die Daten fiir samtliche Rechenoperationen bereitstellen 
muss. Zudem erschweren Datenabhangigkeiten und inkonsistente 
Lese/Schreiboperationen (LOAD/STORE) die Parallelisierung- 
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Rekonfigurierbare Prozessoren weisen eine grofie Anzahl an un- 
abhSngigen Rechenwerken auf, die typisch in einem Feld ange- 
ordnet' sihd. Diese sind typisch nicht durch einen giemeinsamen 
Registersatz, sondern durch Bifsse miteinander verbunden. Da- 
durch lasseii sich eiheirseits leicht Vefctorrechenwerke aiifbau- 
eh/ andererseits . kdnnen auch einfach:pca:allele Operaitionen 
durchgefOhrt werden. Durch die Busverbindungen warden entgegen 
der herkommlichen Registerkonzepte DatenabhSngigkeiten aufge- 
I6st. 

Die Aufgabe der vorliegenden Erfindung besteht darin, Neues 
far die gewerbliche Anwendung bereitzuistellen; 

Die Losung dieser Aufgabe wird in unabhangiger Form bean- 
sprucht. Bevorzugte Ausfuhrungsformen finden sich in den Un- 
teransprtichen . 

Es wird also vorgeschlagen, fiir einen Compiler fOr rekonfigu- 
rierbare Prozessoren die Konzepte von vektorisierenden Compi- 
lem und parallelisierenden (z.B, VLIW) Con5>ilefn zugleich an- 
zuwenden und somit auf feingranularer Ebene zu Vektorisieren 
und parallelisieren.. 

Ein .wesentiicher Vorteil besteht darin, dass der Compiler 
nicht auf eine fest vorgegebene Hardwarestruktur abbilden . 
musSf sondern die Hardwarestruktur mit dem erfindxingsgemSBen- 
Verfahren so konfiguriert werden kann, dass sie optimal fUr 
die Abbildung des jeweiligen corapilierten Algorithmus • geeignet 
ist. 

2. Beschreibung 

Als Grundlage zur Abarbeitung praktisch jeder Methodik zur 
Spezifizierung von Algorithmen wird der endliche Automat ge- 
nutzt- Die Struktur eines endlichen Automaten ist in Figur 1 
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abgebildet. Ein einfacher endlicher Automat zerfSllt in ein 
kombinatorisches Netz und eine Registerstuf e zum Zwischenspei- 
chern von Daten zwischen den einzelrien Datenverarbeitiihgszy- 
klen, 

Ein endlicher Avftomat. ftihrt eine i\nzahl rein kombinatorischer 
(also z.B. logischer und/oder arithmetischer) Datenmanipula- 
tionen aus, um danach einen stabilen Zustand zu erreichen, der 
in einem Register (satz) reprasentiert wird. Basierend auf die- 
sem stabilen .Zustand wird entschieden, we.lcher n^chste Zustand 
im nachsten Verarbeitungsschritt erreicht werden soil und so- 
mit auch, welche kombinatorischen Datenmanipulationen im n^ch- 
sten Schritt durchgeftthrt werden sollen. 

Beispielsweise reprasentiert ein Prozessor oder Sequenzer ei- 
nen endlichen Automaten. In einem ersten Verarbeitungsschritt 
kann eine Subtraktion von datendurchgeftihrt werden. Das Ergeb- 
nis wird gespeichert. Im nSchsten Schritt kann basierend auf 
dem Ergebnis der Subtraktion ein Sprung durchgeftlhrt werden, 
der je nach Vorzeichen des Ergebnisses in eine andere Weiter- 
verarbeitung ftihrt. 

Der endliche Automat ermdglicht die Abbilduhg komplexer Algo- 
rithmen auf beliebige sequentielle Maschinen, wie in Figur 2 
cQ>gebildet . Der dafgest elite kbmpiexe endliche Autoinat besteht 
aus einem kon^lexen kombinatorischen Netz, einem Speicher zum 
Ablegen von Daten und einem Adressgenerator zum Adressieren 
der Daten im Speicher. 

Nun kann jedes beliebige sequentielle Programm grundlegend als 
endlicher Automat interpretiert werden, wobei aber. zumeist ein 

r 

sehr grofies kombinatorisches Netz entsteht. Bei der Program- 
mierung klassischer "von Nevimann"-Architekturen - also bei al- 
ien CPUs - werden daher die kombinatorischen Operationen in 
eine Folge von jeweils einzelnen einfachen, fest vorgegebenen 
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Operationen (Opcodes) auf CPU-interne Register zerlegt. Durch 
diese Zerlegung entstehen Zustande zur Steuerung der in eihe 
Folge zerlegten kombinatorischen Operation, die aber innerhalb 
der urspriinglichen kombinatori'schen Operation per se nicht 
vorhanden sihd> bzw. nicht benotigt werden. Daher sind jedoch 
die abzuarbeitenden Zustande einer von Nei?mann Maschinen 
grxindsatzlich von den algorithmischen Zustanden eines kombina- 
torischen Netzes, also den Registern endlicher Automaten zu 
unter scheiden . 

Es wurde nun erkannt, dass die VPU-Technologie (wie sie im We- 
sentlichen durch einige oder alle der Schriften PACTOl, 
PACTO2/ PACT03, PACT04> PACT05, PACT08, PACTIO, PACT13, 
PACT17, PACT18, PACT22, PACT24 definiert ist, die durch Bezug- 
nahme volluinf anglich eingegliedert sind) im Gegensatz zu den 
starren OpCodes von CPUs ermSglicht, komplexe Instruktionen 
entsprechend eines abzubildenden Algorithmus wie in flexiblen 
Konf igurationen hineinzukompilieren . 

2.1 Arbeitsweise des Compilers 

Besonders vorteilhaft ist bei der Arbeitsweise des Compilers, 
wenn die komplexen Instruktionen derart generiert werden, daB 
diese. mOglichst lange in der PAE-Matrix ohne Rekonf iquration 
aiisgefOhrt wird. 

Der Compiler generiert weiterhin den endlichen Automaten be-, 
vorzugt aus dem inperativen Quelltext derart, daB er der je- 
weiligen PAE-Matrix besonders gut angepasst ist, also solche 
Operationen darin vorgesehen werden, die die typisch grobgra- 
nularen Logikkreise (ALUs etc.), gegebenenfalls auch vorhande- 
ne feingranulare Elemente (FPGA-Zellen in der VPU, statemachi- 
nes etc.) besonders effizient nutzen. 
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Der compilererzeugte endliche Automat wird dann in Konfigura- 
tionen zerlegt. 

Das Abarbeiten (InterpretiererjO des endlichen Automaten ge- 
schleht auf einer VPU deirart, daB die generierten Konifigura- 
tioneri succe^ivs auf die PAE-Matrix abgebildet wef den und die 
Arbeitsdaten und/oder ZustSnde, die zwischen den Konfiguratio- 
nen zu ttbertragen sind, in Speicher abgelegt werden. Dazu kann 
das aus PACT04 bekannte Verfahren bzw. die entsprechende Ar- 
chitektur.verwendet. werden.. Dieser . Speicher wird vom Compiler 
bestimmt beziehungsweise vorgesehen. Es reprSsentiert eine 
Konfiguiration dabiei ' eine Mehrzahl von Ihstruktioiien; eine Kon- 
figuration bestimmt zugieich ftir eine Vielzahl von Takten die 
Arbeitsweise der PAE-Matrix, wahrend dieser Takte wird eine 
Vielzahl von Daten in der Matrix verarbeitet; diese stammen 
aus einer VPO externen Quelle und/oder einem internen Speicher 
und werden an eine externe Quelle und/oder einen internen 
Speicher geschrieben. Die internen Speicher ersetzen dabei den 
Registersatz einer CPU nach dem Stand der Technik derart, dafi 
z.B. ein Register durch einen Speicher reprSsentiert wird, wo- 
bei nicht ein Datenwort je Register gespeichert wird, sondern 
ein gesamter Datensatz je Speicher. 

Wesentlich kann auch sein, daB die Daten iind/oder Zustande der 
Verarbeitung einer ablaufenderi Kohfiguration donqpilerbestimmt 
in die Speicher abgelegt werden und somit der nSchsten ablau- 
fenden Konf iguration zur Verfiigung stehen. 

Ein bedeutender Unterschied zu Compilern, die auf Instruk- 
tionsbasis parallelisieren, besteht somit darin, dafi das Ver- 
fahren die PAE-Matrix derart konfiguriert und rekonfiguriert, 
dass eine konfigurierte Folge von kombinatorischen Netzen auf 
einer VPO emuliert wird, wahrend herkoinmliche Coitpiler gelade- 
ne Folgen von Instruktionen (OpCodes) kombinieren, wobei eine 
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Instruktion als ein kombinatorisches Netz betrachtet werden 
kann. 

2 . 2 Aasfairtthgsbeispxel WHIIiE-^Spradhe 

Im Folgenden sbll die Funktionsweise des. Compilers anhand ei^ 
ner einfachen Sprache beispielhaft verdeutlicht werden. Dabei 
wird von einer Sprache ausgegangen, die in ihren Grundlagen 
bereits bekannt ist^ wobei in einer bekannten Verof fentlichung 
[Referenz: "Doktorarbeit Armin Nttckel"] jedoch lediglic.h, die 
Abbildung einer Funktion auf ein statisches kombinatorisches 
Netz beschrieben wird, wahrend mit def Erf indimg nun die Ab- 
bildung auf Konfigurationen erfolgt, die danii. in eiiief zeitli- 
Chen Reihenfolge entsprechend des Algorithmus und der sich 
wahrend der Verarbeitung ergebenden Zustande auf die PAE- 
Matrix abgebildet werden. 

Die Prograramiersprache geht davon aus, dass neben einfachen 
logischen und/oder arithmetischen VerknUpfungen ein Befehl 
"WHILE" existiert, der mit folgender Syntax definiert ist: 
WHILE... 

. Mdgliche Konstrukte sind damit: Anweisung 

Folge von Aiiweisungen. 
Schleife 

Eine Anweisung oder eine Folge von Anweisungen ist durch das 
beschriebene Coinpiler-Verf ahren auf ein kombinatorisches Netz 
abbildbar . 

Pigur 3a zeigt ein kombinatorisches Netz mit den dazugehoren- 
den Variablen. Dabei kann sich der Inhalt ein und derselben 
Variable (z.B. xl) von einer Stufe (0301) des Netzes zur nSch- 
sten (0302) Sndern. 



wo 03/017095 PCT/EP02/10065 

10 

Diese Veranderung ist beispielsweise ftir die Zuweisung 

xl xl + 1 ' 

in Fignr 3b dargestelit. 

Zur Adressierung zim' Lese^ zum Speichern der 

Ergebnisse kSnnen nun Adressgeneratoren mit dem kombinatori- 
schen Netz der Zuweisung synchronisiert werden. Mit jeder ver- 
arbeiteten Variable werden entsprechende neue Adressen fur 
Operanden und Ergebnisse generiert (Figur 3c).. Die Art des 
Adressgenerators ist prinzipiell beliebig und hSngt von den 
Adressierungsschematas der compilierten Applikation ab. 
Far Operanden und Ergebnisse k6nnen gemeinsame, konibinierte 
Oder vollstandig unabhangige Adressgeneratoren implementiert 
werden. 

Typischerweise werden bei der Datenverarbeitung wie im vorlie- 
genden Datenverarbeitungsmodell eine Mehrzahl von Daten inner- 
halb einer bestimmten Konfiguration der .PAEs verarbeitet. Be- 
vorzugt ist der Compiler daher ftir die in vielen, wenn nicht 
den meisten Anwendungen mSglichen einfachen FIFO-Modus ausge- 
legt, der ziamindest- far die Datenspeicher anwendbar ist, die 
innerhalb dieser Beschreibung zum Speichern von Daten- und Zu- 
standen der Datenverarbeitung (quasi als Ersatz eines gewQhn- 
lichen Registersatzes herkOinnaicher CPUs) dienen. Mit andefen 
Worten dienen Speicher der temporSren Speicherting von Varia- 
blen zwischen den Konf igurationen • Auch hier ist eine Konfigu- 
ration ahnlich einer Instruktion eines nonaalen Prozessors xmd 
die Speicher (insbesondere eine Mehrzahl) sind vergleichbar 
mit dem Registersatz eines normalen Prozessors. 

2.2.3 Folgen von Anweisunqen 

Eine Folge der beispielhaften Zuweisung lafit sich wie folgt 
generieren (Figur 4a) : 
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xl :== 0; 
WHILE TRUE DO 

xl := xl + 1; 

Diese Folge laBt sich nunmehr /fait t els einer Zuweisung gemafi 
2.2.1 und Adressgeneratoren fdir Operahden und Ergebnisse ab- 
■'bildeh. ' 

Endliche Folgen 

Der VollstandigJceit halber soil eine besondere Ausgestaltung 
von Folgen abseits der def inierten Konstrukte der WHILE 5pra- , 
che diskutiert werden. Eine endliche Folge der beispielhaften 
Zuweisung laBt sich wie folgt generieren: 
FOR i:=l TO 10 
xl := xl + 1; 

Eine derartige Folge laBt sich durch zwei Arten implementie- 
ren: 

a) Durch Generierung eines Addierers zur Berechnung von i ent- 
sprechend des WHILE-Kohstruktes (siehe 2.2.4) und eines 
weiteren Addierers zur Berechnung von xl. Die Folge wird 
als Schleife abgebildet und iterativ berechnet (Figur 5a). 

b) Durch Auswalzen der Schleife, wodurch die Berechnung von i 
als Funktion entfailt. Die Berechnung von. xl wird i-mal in- 
stantiiert und als Pipeline aufgebaut, wodurch i nacheinan- 
der geschaltete Addierer ents.tehen (Figur 5b) . 

2.2.4 Bedinqungen 

Bedingungen lassen sich mittels WHILE ausdrUcken. Beispiels- 

weise: 

xl := 0; 

WHILE xl < 10 DO 
xl := xl + 1; 

Die Abbildung generiert eine zusatzliche PAE zur Verarbeitung 
des Vergleiches. Das Vergleichsergebnis wird durch ein Sta- 
tussignal reprasentiert (vgl. Trigger in PACT08), das von den 
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die Anweisung verarbeitenden PAEs und den Adressgeneratoren 
ausgewertet wird- 

Die resultierende Abbildung ist in Figur 4b dargestellt. 

Durch die Auswertung der Bedingung (hier WHILE, genereli und 
einleuchtenderweise aiich andere Anweisungen wie IF; CASE rea^- 
lisierbar) wird ein Status generiert, der der nachfolgenden 
Datenverarbeitung zur VerfQgung gestellt werden kann (DE 197 
04 728-9) und/oder an die CT oder eine lokale Ladesteuerung 
(DE 196 54 846.2) gesendet werden kann/ die daraus Information 
liber, den weiteren ProgrananfluB und evtl. anstehende Rekonfigu- 
rationen ableitet. 

2- 2.5 Grundleqendes Verfahren 

Entsprechend den vorherigen Verfahren wird jedes Programm in 
ein System abgebildet, das wie folgt aufgebaut ist: 

1. Speicher fttr Operanden (vgl. Register einer CPO) 

2. Speicher ftir Ergebnisse (vgl. Register einer CPU) 

3- Netzwerk aus a) Zuweisungen und/oder b) Vergleichen- 
Anweisungen, also Bedingungen wie z.B. IF, CASE, Schleifen 
(WHILE, FOR, REPEAT) 

4. pptionalen Adressgenerator (en), zur Ansteuerving der Speicher 
nach 1 und 2. 

2.2.6 Umqanq itiit Zustanden 

Es wird nun fiir die Zwecke des beschriebenen Compilers zwi- 
schen algorithmisch relevanten und irrelevanten Zustanden un- 
terschieden. Zustande werden in der VPU-Technologie fUr ge- 
wohnlich durch Statussignale (z.B. Trigger in PACT08) und/oder 
Handshakes (z.B. RDY/ACK in PACT02) dargestellt. Genereli kon- 
nen Zustande (v. a. in anderen Technologien, wie FPGAs, DPGAs, 
Chameleon-Bausteinen, Morphics, etc.) durch beliebige Signale, 
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Signalbiindel und/oder Register dargestellt werden. Das offen- 
barte Compilierverfahren kann auch auf solche angelegt werden, 
obwohl wesentliche Telle der Beschreibung bevorzugt auf die 
VPO fokussieren. 

Relevante Zustande slnd innerhalb des Algorlthmus notwendig urn 
dessen korrekte Funktlon zu beschrelben. Sie slrid f Of den Al- 
gorlthmus wesentllch. 

Irrelevante Zust^nde entstehen durch die verwendete Hardware 
und/oder die gewahlte Abblldung oder aus anderen sekundaren 
Granden. Sie slnd daitilt fUr die Abblldung (also die Hardware) 
wesentllch. 

Lediglich die relevanten Zustande ratissen mlt den Daten erhal- 
ten werden. Daher werden diese zusairanen mlt den Daten In den 
Speichern abgelegt, da sie entweder als Ergebnls der Verarbel- 
tung mlt den Daten auftraten oder als Operanden mlt den Daten 
fiir den nachsten Verarbeltungszyklus notwendig slnd. 

Irrelevante ZustSnde slnd dagegen nur ortlich und/oder zelt- 
lich lokal notwendig und mtissen daher nlcht gespeichert wer- 
den. 

Belspiel: 

. a) Die Zustandsinf ormatlon eines Verglelchs 1st fiir die welte- 
re Verarbeltung der Daten relevant, da dleser die auszufuh- 
renden Funktlonen bestlmmt. 
b) Angenoramen, eln sequentleller Dlvidlerer entsteht bel- 

splelswelse durch Abblldung elnes Divlslonsbefehles auf el- 
ne Hardware, die nur die sequentlelle Division untersttttzt 
Dadurch entsteht eln Zustand, der den Rechenschritt Inner- 
halb der Division kennzeichnet . Dleser Zustand ist irrele- 
vant, da ftir den Algorlthmus nur das Ergebnls (also die 
ausgeftlhrte Division) erforderllch ist. In diesem Fall wer 
den also lediglich das Ergebnls und die Zeltlnf ormatlon 
(also die Verfilgbarkelt) ben5tlgt. Der Compiler unterschel 
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det solche relevante und irrelevante Zustande bevorzugt 
voneinander. 

Die Zeitinf onaation ist beispifelsweise in der VPO-Technologie 
nach PACTOI, 02, 13 durch das RDY/AGK Handshake erhaitlich. 
Hierzii ist jedbch besbhdefs ahzvimerken, dass das Handshiaike 
ebenfalls keine relevanten Zustand darstellt, da es lediglich 
die GQltigkeit der Daten signalisiert, wodurch sich wiederum 
die verbleibende relevante Information auf die Existenz gulti- 
ger Daten reduziert- 

2.2.1 Umgang mlt Zeit 

In vielen Programiniersprachen, besonders in sequentiellen wie 
z.B. C, wird eine exakte zeitliche Reihenfolge implizit durch 
die Sprache vorgegeben; bei sequentiellen Programmiersprachen 
geschieht dies beispielsweise durch die Reihenfolge der ein- 
zelnen Anweisungen. Sofern dies durch die Programmier sprache 
und/oder den Algorithmus erforderlich ist, wird das Compilier- 
verfahren so ausgefiihrt, dass sich die Zeitinformation auf 
Synchronisationsmodelle wie RDY/ACK und/oder REQ/ACK oder ein 
Time-Stamp-Verfahren nach DE 101 10 530.4 abbilden lasst. 

Mit anderen Wort en wird die implizite Zeitinformation von se- 
quentiellen Sprachen in ein Handshake Protokoll derart abge- 
bildet, dass das Handshake Protokoll (RDY/ACK-Protokoll) die 
Zeitinformation tibertragt und insbesondere die Reihenfolge der 
Zuweisungen garantiert. 

Beispielsweise wird die nachfolgende for-Schleife nur dann 
durchlaufen und iteriert, wenn die Variable input stream je 
"Durchlauf mit einem RDY quittiert ist. Bleibt RDY aus^ wird 
der Schleifendurchlauf bis zim Eintreffen von RDY angehalten. 
while TRUE 
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s := 0 

for i:= 1 to 3 

s := s + input stream; 

Die Eigehschaft der seqvientiellen Spfachen, nur von der Be- 
fehlsverarbeitung gesteueft zu werdeh, wird somit bei der Com- 
pilierung mit dem Datenflufiprinzipr die Verarbeitung durch den 
Datenstrom, bzw. die Existenz von Daten zu steuern verbunden- 
Mit anderen Worten wird ein Befehl und/oder eine Anweisung 
(z.B. s :=* s + inputstream;) nur verarbeitet, wenn die Opera-. , 
tion ausgefiihrt werden kann und die Daten verfUgbar sind. 

Bemerkenswert ist , dafi dieses Verf ahren gew5hniicherweise zu 
keiner Anderung der Syntax Oder Semantik einer Hochsprache 
ftihrt. Es kann also vorhandener Hochsprachencode durch Neucom- 
pilierung problemfrei zur Ausfuhrung auf einer VPU gebracht 
werden. 

2.2.8 Laden und Speichern von Daten 

Ftir die Grundlagen der Load/Store Operationen ist folgendes 
beachtlich. 

Die nachf olgenden Adressierungsarten werden unterschiedlich 
behandelt: 

1. externe Adressierung/ also die Datentransfers mit exter- 
nen Baugruppen 

2. interne Adressierung^ also die Datentransfers zwischen 
PAEs^ i,b. zwischen RAM-PAEs und ALU-PAEs 

Desweiteren kann die zeitliche Entkopplung der Datenverarbei- 

r 

tvmg und dem Laden und Speichem der Daten besondere Beachtung 
finden. 
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Bustransfers werden in interne und exteme Transfers zerlegt. 
bti ) Externe Lesezugrif f ie (Load Operation) werden separiert , 
in eiher moglichen Ausftihrxing auch bevorzugt in eine separate 
Konfiguration tibersetzt. Die ETaten werden von einem externen 
Speicher in einen interrien transfer iert/ 

bt2) Interne Zugriffe werden mit der Datenverarbeitvmg gekop- 
pelt, d.h. die intejcnen Speicher (Register Operation) werden 
fiir die Datenverarbeitung gelesen, bzw. beschrieben. 

bt3) Externe Schreibzugrif fe (Store Operation) werden sepa- 
riert/ in einer bevorzugten m^Jglichen Ausftlhrung auch in eine 
separate konfiguration tibersetzt. Die Daten werden von einem 
internen Speicher in einen externen trans feriert . 

Wesentlich ist, dass die btl, bt2, bt3 - also das Laden der 
Daten (Load) , das Verarbeiten der Daten (Datenverarbeitung und 
bt2) und das Schreiben der Daten (bt3) - in unterscheidliche 
Konfigurationen tibersetzt werden k5nnen und diese ggf • zu ei- 
nem unterschiedlichen Zeitpunkt ausgefUhrt werden* 

Das. Verf ahren soil an dem nachfolgenden Beispiel yerdeutlicht 
werden:. 

function example (a, b : integer) -> x : integer 
for i:= 1 to 100 
for j:= 1 to 100 
x[i] := ati] * b[j] 

Die Funktion kann vom Compiler in drei Telle , bzw. Konfigura- 
tionen (subconfig) transf ormiert: 

:exan^le#dload: LSdt die Daten von extern (Speicher, Periphe- 
rie, etc.) und schreibt diese in interne Speicher. Interne 
Speicher sind mit r# und dem Namen der urspriinglichen Variable 
gekennzeichnet . 



wo 03/017095 PCT/EP02/10065 

17 

example#process : Entspricht der eigentlichen Datenverarbei- 
tung. Diese liest die Daten aus internem Operanden und 
schreibt die Ergebnisse wieder in interne Speicher. 
example#dstore: schreibt die Eirgebnisse aus deminternen Spei- 
cher nach extern (Speicher/ Periphejcie, etc.) . 

function example* (a, b : integer) -> x : integer 
subconfig exaiiqple#dload 
for i := 1 to 100 

r#a[i] := a[i] 
for j := 1 to 100 

r#b[j] := b[j] 

subconfig exampletprocess 
for i := 1 to 100 
for j:= 1 to 100 

r#x[i] := r#a[i] * r#b[j] 

subconfig exaiaple#dstore 
for i := 1 to 100 
x[i] := r#x[i] 

Ein wesentlicher Effekt des Verfahrens ist, dass anstatt i*j = 
100 * 100 = 10.000 externe Zugriffe nur i+j 100 + 100* = 200 
externe Zugriffe zum Lesen der Operanden ausgefahrt werden. 
Diese Zugriffe sind zudem noch vollkommen linear, was die 
Trans fergeschwindigkeit bei modemen Bussystemen (Burst) 
und/oder Speichem (SDRAM, DDRAM, RAMBUS, etc) erheblich be- 
schleunigt- 

Die internen Speicherzugrif fe erfolgen parallel, da den Ope- 
randen unterschiedliche Speicher zugewiesen wurden. 
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Zum Schreiben der Ergebnisse sind i = 100 externa Zugriffe 
notwendig, die ebenfalls wieder linear mit maximaler Perfor- 
mance erfolgen k5nnen. 

Wehn die Anzahl der Datent rains fers vorab nicht bekanht ist 
(z.B, WHILE-Schleifen) oder sehr grdfi ist/ kanh eih Verf ahreii 
verwendet werden, das bei Bedarf durch Unterprograramaufrufe 
die Operanden nachladt bzw. die Ergebnisse nach extern 
schreibt. Dazu k5nnen in einer bevorzugten Ausflihrung (auch) 
die Zustande der FIFOs abgefragt werden: 'empty* wenn das FIFO 
leer ist, sowie 'full' wenn das FIFO voll ist. Entsprechend 
der Zustande reagiert der Prograntmf lufl . Zu bemerken ist> dass 
bestimmte Variablen (z.B. ai, bi, xi) global defiriiert sind. 
Zu Performanceoptimierung kann ein Scheduler entsprechend der 
bereits beschriebenen Verfahren die Konfigurationen examp- 
le#dloada, example#dloadb bereits vor dem Aufruf von examp- 
le#process bereits ausfUhren, sodass bereits Daten vorgeladen 
sind. Ebenso kann examplefdstore (n) nach der Terminierung von 
example#process noch aufgerufen werden um r#x zu leeren. 

subconfig exainple#dloada{n) 
while !full(r#a) AND ai<=n 
r#a[ai] := a[ai] 

subconfig examplefdloadb (n) 
while !full(r#b) AND bi<=n 
r#b[bil b.[bi] 
bi++ 

subconfig exampletdstore (n) 
while ! empty {r#x) AND xi<=n 
x[xi] := r#x[xi] 
xi++ 
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subconfig example#process 
for i := 1 to n 
for j:= 1 to m 

if empty {r#a) then examplefSdloada (n) 

if empty (r#b) then example#dioadb(ra) 

if full(r#xj then (example#dstore(nj : 

r#xti] := r#ati] * r#b[j] 
bj := 1 

Die Onterprogrammaufrufe und das Verwalten der globalen Varia- 
blen sind far rekonfigurierbare Architekturen vergleichsweise 
aufwendig. Daher kann in einer bevorzugten Ausftihrung die 
nachfolgende Optimierung durchgefuhrt werden, in welcher samt- 
liche Konfigurationen weitgehend unabangig ablaufen und nach 
vollstandiger Abarbeitung terminieren (terminate) . Da die Da- 
ten b[j] mehrfach erforderlich sind, muB example#dloadb ent- 
sprechend mehrfach durchlaufen werden. Dazu werden beispiels- 
weise zwei Alternativen dargestellt: 

Alternative 1: example#dloadb terminiert nach jedem Durchlauf 
und wird von exampletprocess fiir jeden Neustart neu konfigu- 
riert . 

Alternative 2: exampleftdloadb lauft unendlich und wird von ex- 
ample#process terminiert . 

wahrend ' idle ' ist eine Konf iguration untStig (wartend) . 

subconfig example#dloada (n) 
for i:= 1 to n 
while full(r#a) 

idle 
r#a[i] := a[il 
terminate 



subconfig example#dloadb (n) 



wo 03/017095 

20 

while 1 // ALTEENATIVE 2 
for i:= 1 to n 
while full{r#b) 
idle 
• r#bti] a[ii 
terminate 
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sxibconfig exaiaple#dstore (n) 
for i:= 1 to n 
while empty (r#b) 

idle 
xii] := r#x[i] 
temihate : 

subconfig example#process 
for i := 1 to n 
for j := 1 to m 

while empty (r#a) or empty (r#b) or full{r#x) 
idle 

r#x[i] := r#a[i] * r#b[j] 

config exampleidloadb (n) // ALTERNATIVE 1 
terminate examplefdloadb (n) // ALTERNATIVE 2 
terminate 

Zur Vermeidung von Wartezyklen k5nnen Konfigurationen auch 
terminiert werden, sobald sie ihre Aufgabe temporSr' nicht wel- 
ter erfiillen konnen. Die entsprechende Konfiguration wird von 
dem rekonfigurierbaren Baustein entfemt, verbleibt jedoch im 
Scheduler. Hierzu wird im Folgenden der Befehl 'reenter' ver- 
wendet. Die relevanten Variablen werden vor der Terminieriing 

r 

: gesichert und bei der wiederholten Konfiguration wiederherge- 
stellt: 



subconfig exampletdloada (n) 
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for ai:« 1 to n 

if full(r#a) reenter 

r#a[aii := a [ai] 
terminate 

subconfig exaiiq?le#dibadb (n) 
while 1 // ALTERNATIVE 2 
for bi:= 1 to n 

if full(r#b) reenter 
. r#b[bi] := a[bil 
terminate 

subconf ig example#dstore (n) 
for xi:= 1 to n 
" if empty (r#b) reenter 

x[xi] := r#x[xi] 
terminate 

sxabconfig example#process 
for i := 1 to n 
for j := 1 to m 

. if empty (r#a) or empty {r#b) or full(r#x) reenter , 
r#x[i] := r#a[i] * r#b[j] 

confiQ example#dloaca>(n) // ALTERNATIVE 1 
terminate exam^>leidloadb (n) // ALTERNATIVE 2 
terminate 



2.3 Makros 

Kon?)lexere Fiinktionen einer Hochsprache, wie z.B. Schleifen^ 
werden typisch durch Makros realisiert- Die Makros werden da- 
hex vom Compiler vorgegeben und zur Obersetzungszeit instanti- 
iert. (vgl. Figur 4). 
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Die Makros sind entweder aus einfachen Sprachkonstrukten der 
Hochsprache oder aiif AssembierleVei aiifgebaut. Makfos kdnnen 
parametrisiert sein, um eine einfache Adaption an den beschie- 
benen Aigorithmus zu ermoglicljten. (vgl. Figur 5, OSOiZ) . Die 
Makros sind auch vorliegerid einzugliedern. 

2.4 Feedback Loops und Register 

Innerhalb der Abbildung eines Aigorithmus in ein koinbinatori- 
sches Netz kGnnen unverzOgerte RUckkopplungen entstehen^ die 
uhkontrolliert schwingen . 

In praktisch implementierten VPO-Technologien gemaS PACT02. 
wird dies durch einen Aufbau der PTffi verhindert, bei weichem 
mindestens ein Register zur Eiitkopplung, etwa fest in den 
PAEs, definiert ist. 

Generell sind vmverzOgerte Riickkopplungen durch Graphenanalyse 
des entstandenen kombinatorischen Netzes feststellbar. In die 
Datenpfade^ in denen eine unverzdgerte Rtickkopplung besteht, 
werden daraufhin gezielt Register zxir Entkopplung eingeftigt. 
Der Compiler kann somit Register- beziehungsweise Speichermit- 
tel verwalten. 

Durch die Verwendung von Handshake-Protokollen (z.B. RDY/ACK 
gem. 2.2.7) ist die kprrefcte Funktion der Berechnung auch 
diirch das Einftigen von Regis tern sichergestellt . 

2.5 Prozssormodell / Time Domain Multiplexing (TDM) 
Grundsatzlich besitzt jede praktisch realisierte PAE-Matrix 
lediglich eine endliche GraBe. Daher mufi im folgenden Schritt 
eine Partitionierung des Aigorithmus nach 2-2.5 Abs. 4 a/b in 
eine Mehrzahl von Konfigurationen durchgeftihrt werden, die 
nacheinander in die PAE-Matrix konfiguriert werden. Ziel ist 
typisch, m5glichst viele Datenpakete in dem Netzwerk zu be- 
rechnen, ohne umkonf igurieren zu mOssen, 
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Zwischen den Konfigurationen wird eine Zwischenspeicherxing 
vorgenommen, wobei der Zwischenspeicher - ahnlich eihes Regi- 
sters bei CPUs - die Daten zwischen den einzelnen sequentiell 
ausgeftihrten Konfigurationen speichert. 

Somit wird durch das Rekonfigurieren von Konfigurationen, der 
Datenverarbeitung in der PAE--Matrix und der Zwischenspeiche- 
rung in den Speichern ein sequentielles Prozessormodell aufge- 

baut . 

Mit anderen Worten wird in der VPO-Technologie durch die be- 
schriebene Compilierung nicht ein OpCode sequentiell ausge- 
fuhrt, sondern komplexe Konfigurationen. Wahrend bei CPUs ein 
Opcode typischerweise ein Datenwort bearbeitet, werden in der 
VPU-Technologie eine Mehrzahr von Datenworten (ein Datenpaket) 
von einer Konfiguration bearbeitet. Dadurch steigt die Effizi- 
enz der rekonf igurierbaren Architektur durch ein besseres Ver- 
haitnis zwischen Rekonf igurationsaufwand und Datenverarbei- 
tung . 

In der VPU-Technologie wird zugleich anstatt eines Registers 
ein Speicher verwendet, da nicht Datenworte/ sondern Datenpa- 
kete zwischen den Konfigurationen bearbeitet werden. 

Dieser Speicher kann als Random-Access Memory/ Stack/ FIFO 
Oder als beliebige andere Speicherarchitektur ausgestaltet 
sein, wobei typischerweise mit einem FIFO die beste und am 
einfachsten zu realisiernde Moglichkeit gegeben ist. 

Daten werden nunmehr durch die PAE -Matrix, entsprechend des 
konf igurierten Algorithmus, bearbeitet und in einem oder meh- 
reren Speichern gespeichert. Die PAE-Matrix wird nach der Be- 
arbeitung einer Menge von Daten umkonf iguriert und die neue 
Konfiguration entnimmt die Zwischenergebnisse aus dem/den 
Speicher (n) vmd setzt die AusfOhriing des Programmes fort. Da- 
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bei kOnnen durchaus auch neue Daten von externen Speichern 
und/oder der Peripherie zusStzlich in die Berechniing einflie- 
fien, ebenso kSnnen Ergebnisse an externen Speichern uhd/oder- 
der Peripherie geschrieben wej?den. 

Mit anderen. Worteri ist der typische Ablaiif einer Datenverar- 
beitung das Auslesen von internen RAMs, das Verarbeiten der 
Daten in der Matrix und das Schreiben von Daten in die inter- 
nen Speicher, wobei zur Datenverarbeitung auch beliebige ex- 
terne Quellen oder Ziele fiir Datentransfers zusatzlich oder . 
anstelle der internen Speicher verwendet werden kSnnen. 

Wahrend "sequencen" bei CPUs als das Neuladen eines OpCodes 
definiert ist^ wird nach dem Vorstehenden "sequencen" von VPUs 
also als das (Re) konf igurieren von Konf igur at ionen definiert. 
Dies bedeutet allerdings nicht^ dafi nicht unter bestimmten Be- 
dingungen Teile des Feldes als Sequenzer im herkoiranlichen Sin- 
ne betrieben werden k5nnten* 

Die Information^, wann und/oder wie gesequenzt wird, d.h- wel- 
che nSchste Konf igur at ion konf igur iert werden soli, ist durch 
verschiedene Informationen darstellbar, die einzeln oder kom- 
biniert verwendet werden konnen. Z. B. sind folgende Strategi- 
en zur Ableitiing der Information allein und/oder in Kombinati- 
on bzw. alternativ sinnvoll: 

a) durch den Compiler zur Obersetzungszeit definiert; 

b) durch das Event-Netzwerk definiert 
(Trigger, DE 197 04 728.9), 

wobei das Eventnetzwerk interne und/oder externe Zustande 
reprasentieren kann; 

c) durch den Ftillgrad der Speicher 

r 

(Trigger, DE 197 04 728.9, DE 196 54 846.2-53). 



2.5.1 Einflufi des TDM auf das Prozessormodell 
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Die Partitionierung des Algorithmus bestimmt entscheidend die 
relevanten Zustande, die in den Speichern zwischen den ver- 
schiedenen Konfigurationen abgelegt werden. Sofern ein Zustand 
nur innerhalb einer Konfiguratrion relevant ist (lokal relevan- 
ter Zustand)/ ist es nicht notwendig, diesen zu speichern, was 
vom Cqn^)ilieryerf ahren bevorzugt beriicksichtigt wird. 

Zu Zwecken des Debuggings des auszuftihrenden Programmes kann 
es aber sinnvoH sein, diese ZustSnde dennoch zu speichern, um 
dem Debuggej: einen Zugrtff auf. diese zu ermSglichen. Auf die 
DE 101 42 904.5 wird verwiesen; diese ist hiermit vollumfang- 
lich zu Off enbarungs zwecken eingegliedert . 

Weiterhin kdnnen zusStzlich Zust^nde relevant werden, wenn ein 
Taskswitch-Mechanismus (z,B. durch ein Bet riebs system Oder In- 
ter ruptquellen) verwendet wird und aktuelle ausgeftihrte Konfi- 
gurationen unterbrochen werden, andere Konfigurationen geladen 
werden und/oder zu einem spateren Zeitpunkt die abgebrochene 
Konfiguration fortgesetzt werden soli. Eine detailliertere Be- 
schreibung folgt im nachfolgenden Abschnitt. 

Ein einfache^ Beispiel soli ein Unterscheidungsmerkmal fiir lo- 
kal relevante Zustande aufzeigen: 

a) Eiiie Verzweigung des Types "if () then ... else ..." paBt 
volistandig in eine eihzige Konfiguration, d.h. beide Da- 
tenpfade (Zweige) sind gemeinsam vollstandig innerhalb der 
Konfiguration abgebildet. Der sich beim Vergleich ergebende 
Zustand ist relevant, jedoch lokal, da er in den nachfol- 
genden Konfigurationen nicht mehr bendtigt wird. 

b) Dieselbe Verzweigung ist zu groB, um vollstandig in eine 
einzige Konfiguration zu passen. Mehrere Konfigurationen 
sind notwendig, lina die vollstMndigen Datenpfade abzubilden. 
In diesem Fall ist der Zustand global relevant und mufl ge- 
speichert und den jeweiligen Daten zugeordnet werden, da 
die nachfolgenden Konfigurationen bei der Weiterverarbei- 



wo 03/017095 PCT/EP02/10065 

26 

tung der Daten den jewelligen Zustand des Vergleichs bena- 
tigen. 

2,6 Task-Switching 

Eineh zusktziichen Exnf luB aiif die Betrachtung und den Umgang 
mit Zustanden hat der mOgliche Einsatz eines Betriebssystemes. 
Betriebssysteme verwenden beispielsweise Task-Scheduler zum 
Verwalten mehrere Aufgaben (Tasks) , um ein Multitasking zur 
:Verfttgung zu stellen. ♦ . r 

Task-Scheduler brechen Tasks zu einem bestimmten . Zeitpunkt ab, 
starten andere Tasks und kehren nach deren Abarbeitung zur 
Weiteirbearbeitung des abgebrocheneh Tasks zurOck. 
Sofern sichergestellt ist, daB eine Konfiguration - die hier 
"der Abarbeitung eines Tasks entsprechen kann - nur nach der 
kompletten Abarbeitung - d.h. wenn alle innerhalb dieses Kon- 
figurationszyklusses zu bearbeitende Daten und Zustande ge- 
speichert sind - terminiert, konnen lokal relevante Zustande 
ungespeichert bleiben. Dieses Verfahren, also das komplette 
abarbeiten einer Konfiguration und der nachfolgende Taskswitch 
ist die bevorzugte Methode fiir den Betrieb von rekonf igurier- 
baren Prozessoren und entspricht im Wesentlichen dem Ablauf in 
einem normalen Prozessor, der auch zunachst die aktuell bear- 
beiteten Instruktionen abarbeitet und dann den Task wechselt. 

Ftir manche Anwendungen ist jedoch eine besonders kurze Reakti- 
on auf eine Taskwechselsanforderung erforderlich^ z.B. in 
Realtime-Anwendungen, Hier kann es sinnvoll sein Konfiguratio- 
nen vor deren kompletter Abarbeitung abzubrechen. 
Sofern der Task-Scheduler Konf igurationen vor deren vollstan- 
diger Abarbeitung abbricht, mUssen lokale Zustande und/oder 
Daten gespeichert werden. Weiterhin ist dies von Vorteil^ wenn 
die Abarbeitungszeit einer Konfiguration nicht vorhergesagt 
werden kann. In Verbindung mit dem bekannten Halteproblem und 
dem Risiko, daB eine Konfiguration (z.B. durch einen Fehler) 
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gar nicht terminiert, erscheint dies weiterhin sinnvoll, um 
damit einen Deadlock des gesaidten Systems zu verhindem. 
Daher sind vorliegend, unter Berticksichttmg von Taskwechseliir 
relevante Zustande auch als s<?lche anzusehen, die far einen 
Taskwechsel tirid ein emeutes korrektes Auf setzeh der Datenver- 
arbeifeung nptwendig sind. 

Bei einem Taskswitch ist somit der Speicher fQr Ergebnisse und 
ggf . auch der Speicher ftir die Operanden zu sichern und zu ei- 
nem spateren Zeitpunkt, also bei der RUckkehr zu diesem Task, 
wieder herzustellen. Dies kann yergleichbar zu den PUSH/POP 
Befehlen und Verfahren nach dem Stand der Technik erfolgen. 
Weiterhin ist dier Zustand der Datenverarbeitung zu sichern, 
also der Zeiger .auf die zuletzt vollstcLndig bearbeiteten Ope- 
randen, Es sei hier besonders auf PACT18 verwiesen. 

Abhangig von der Optimierung des Taskswitches gibt es bei- 
spielsweise zwei M5glichkeiten: 

a) Die abgebrochene Konfiguration wird neu konfiguriert und 
nur die Operanden werden geladen. Die Datenverarbeitung be- 
ginnt so von neuem, als ob die Bearbeitung der Konfigurati- 
on noch gar nicht begonnen wurde, Mit anderen Worten werden 
einfach alle Datenberechnungen von yome an ausgefiihrt, wo-, 
bei ggf- Berechnungen bereits zuvor durchgefUhrt wurden. 
Diese Moglichkeit ist einfach, aber nicht effizient. 

b) Die abgebrochene Konfiguration wird neu konfiguriert, wobei 
die Operanden xind die bereits berechneten Ergebnisse in die 
jeweiligen Speicher geladen werden. Die Datenverarbeitung 
wird bei den Operanden fortgesetzt, die nicht mehr voll- 
standig berechnet wurden. Dieses Verfahren ist sehr viel 
effizienter, setzt aber voraus, daB ggf- zusatzliche Zu- 

r 

stande, die wahrend der Verarbeitung der Konfiguration ent- 
stehen, relevant werden, etwa wenn zumindest ein Zeiger auf 
die zuletzt vollstandig verrechneten Operanden gesichert 
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werden muss, damit bei deren Nachfolgern nach erfolgter 
neuer Konfiguration neu aufgesetzt werden kann. . 

2,7 Kontext Switch 

Eihe besohders bevbrzugte Variahte zur. Verwaltiing von f elevah- 
ten Daten wird durch den nachfolgend beschriebenen Kontext 
Switch zur Verftigung gestellt. Bei Task-Wechseln und/oder bei 
der Ausftihrting von Koiifigurationen und derem Wechsel (siehe 
beispielsweise Patentanmeldiang DE 102. 06 653.1, die zu Offen^ 
barungszwecken volltunfanglich eingegliedert ist) kann es er- 
forderlich sein, Daten oder Zustande, die typischerweise nicht 
zusammen mit den Arbeitsdaten in die Speicher abgelegt werden, 
da sie beispielsweise lediglich einen Endwert markieren, far 
eine nachfolgende * Konfiguration zusichem. 

Der erfindungsgemafi bevorzugt implement ierte Kontext Switch 
wird der art durchgeftUirti. dass eine erste Konfiguration ent- 
fernt wird und die zu sichemden Daten in entsprechenden Spei- 
chern (REG) (Speicher, Register, Zahler, etc) verbleiben. 

Dann kann eine zweite Konfiguration geladen werden, .diese ver- 
bindet die REG in geeigneter Weise und definierter Reihenf olge 
mit einem oder mehreren globalen Speicher (n). 
Die Konfiguration kann beispielsweise Adressgeneratoren ver- 
wenden, um auf den/die globalen Speicher zuzugreifen. Es ist 
also nicht erforderlich, vorab jeden einzelnen Speicherplatz 
durch den Compiler festlegen zu lassen und/oder auf als Spei- 
cher ausgestaltete REG zuzugreifen. 

Entsprechend der konfigurierten Verbindung zwischen den REG 
werden die Inhalte der REG in einer definierten Reihenfolge in 
den globalen Speicher geschrieben, wobei die jeweiligen Adres- 
sen von Adressgeneratoren vorgegeben werden. Der Adressgenera- 
tor generiert die Adressen fUr den/die globalen Speicher (n) 
derart, dass die beschriebenen Speicherbereiche (PUSHAREA) der 
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entfernten ersten Konfiguration eindeutig zugeordnet warden 
konnen. 

Es warden soiciit bevorzugt ftir unterschiedliche Konfiguratiohen 
unterschiedliche Adressenraiim^ vorgesehen. Die Konfiguration 
entspricht dabei einem POSH gew5hnlicher Prozessoren. 

Danach verwenden andere Konfigurationen die Ressourcen. 

Nun soli die erste Konfiguration wieder gestartet werden. Zu- 
vor wird eine dritte Konfiguration gestartet, die die.REG der. 
ersten Konfiguration in einer definierten Reihenfolge ndtein- 
ander verbindet. 

Die Konfiguration kann wiederum beispielsweise Adressgenerato- 
ren verwenden um auf den oder die glpbalen Speichern zuzugrei- 
fen und/oder um auf als Speicher ausgestaltete REG zuzugrei- 
fen. 

Ein Adressgenerator generiert dabei Adressen bevorzugt derart, 
dass ein korrekter Zugriff auf die der ersten Konfiguration 
zugeordnete PUSHAREA erfolgt. Die generierten Adressen und die 
konf igurierte Reihenfolge der REG sind derart, dass die Daten , 
der REG in der ursprtlnglichen Ordnung aus den Speichern in die 
REG geschrieben werden. Die Konfiguration entspricht eineaa POP 
gewohnlicher Prozessoren. 

Nun wird die erste Konfiguration wieder gestartet. 

ZusaitmiengefaBt wird ein Kontext Switch bevorzugt derart durch- 
gefiihrt/ dass durch das Laden besonderer Konfigurationen, die 
ahnlich von PUSH/POP bekannter Prozessorarchitekturen arbei- . 
ten^ die zu sichemden Daten itiit einem* globalen Speicher aus- 
getauscht werden. Dieser Datenaustausch ilber globale Speicher 
mittels von Push/Pop-~Austauschkonfiguationen wird als beson- 
ders relevant angesehen. 
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Die Funktion soli in einem Beispiel verdeutlicht werden: 

Eine Fiinktion addiert 2 Zahlenreihen, die Mnge der Reihen ist 

zur Obersetzungszeit nicht bel^Sinnt, sondern erst zur Laufzeit. 

proc example 

while Klength do 
x[i] = a[il + b[il 
i. « i + 1 

Die Funktion wird nun wShrend ihrer Ausfiihrxing unterbrochen^ 
beispielsweise durch einen Task-Switch, oder well der.fiir x 
vorgesehene Speicher voll ist. a,b,x befinden sich zu diesem 
Zeitjpunkt erf indungsgemaB in Speichern. i und ggf . length mUs- 
sen jedoch gesichert werden. 

Dazu wird die Konfiguration example terminiert, wobei die Re- 
gisterinhalte erhalten bleiben und eine Konfiguration push ge- 
startet, die i und length aus den Registern liest und in einen 
Speicher schreibt. 

proc push 

mem [ <push_adr_example> 1 
: .push_adr_example++ 
mem [ <push_adr_example> ] 

Nach der Ausftihrung wird push terminiert und die Registering 
halte k5nnen geldscht werden. 

Andere Konfigurationen werden ausgeftlhrt- Nach einiger Zeit 
wird die Konfiguration example wieder gestartet, 
Zuvor wird eine Konfiguration pop gestartet, die die Registe- 

r 

rinhalte wieder aus dem Speicher liest. 

proc pop 

i = mem[<push_adr_example>] 



« length 
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push_adr_exaiaple++ 

length = meia[<push_adr_^example>] 

Nach der Ausftihrung wird pop i^inniniert und die Registerinhal- 
te bleiben best eheri. Die Konfigurat ion example wird wieder ge- 
startet". 

2,8 Alqorithmische Optimiernnq 

Durch das beschriebene Obersetzungsverfahren werden Kontroll- 
strukturen von algorithmischen Strukturen getrennt. Beispiels- 
weise zerfailt eine Schleife in einen Rumpf (WHILE) und eine 
algorithmische Struktur . (Anweisungen) • 

Die algorithmischen Strukturen lassen sich nunmehr bevorzugt 
optional durch ein zusatzliches^ der Trennung nachgeschaltetes 
Werkzeug optimieren. 

Beispielsweise kann eine nachgeschaltetes Algebra-Software die 
programmierten Algorithmen optimieren und minimi eren. Derarti- 
ge Tools sind z.B, unter Bezeichnungen wie AXIOM, MARBLE, etc. 
bekannt. Durch die Minimierung kann eine schnellere Ausftihrung 
des Algorithmusses und/oder ein erheblich verringerter Platz- 
bedarf erreicht werden. 

Das Ergebnis der Optimierung wird danach wieder in den Compi- 
ler gefiihrt und entsprechend weiterverarbeitet . 
Es soil zudem angepaerkt sein, dass. moderne Compiler.: 
Frontends) bereits eine Anzahl von Optiinierungeh ftir Algo- 
rithemen (auch z.T* algebraische) implementiert haben, die 
selbstverst^ndlich im Rahmen des hier beschriebenen Verfahrens 
weiterhin nutzbar sind. 

Es soil ausdrticklich erwShnt sein, dass die beschriebenen Ver- 
fahren, insbesondere jedoch die Abschnitte 2.2.7 "Umgang mit 
Zeit" und 2.3 "Makros" auch auf Compiler nach PACT20 angewen- 
det werden konnen. PACT20 wird diesbeziiglich zu Of f enbarungs- 
zwecken vollumfcLnglich in diese Patentanmeldung einbezogen. 
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3, Ahvencibarkeit fiir Prozessoren nach dem Stand der 
inabesondere mit VLIW-Architektnr 

Es soil besoriders angemeirkt werde^ daJB anstatt eiher PAE- 
: Matrix auQh eine Anordiiung von arithmetisdh loglschen. Einhei-^ 
ten nach dem Stand der Technik (ALUs), wie beispielsweise in 
VLIW-Prozessoren ttblich^ und/oder eine Anordnung von komplet- 
ten Prozessoren, wie beispielsweise in Multiprozessorsystenien 
tiblich, yerwendet werden kann- Ein Sonderf all stellt dabei die 
Verwendurig einer einzelnen ALU das, sodaB das Verfahren auch 
fiir normale. CPUs verwendbar ist . 

In der Dissertation [Referenz Dissertation Antiin NUckel] wurde 
ein Verfahren.entwickeltr das die Obersetzung der WHILE- 
Sprache in semantisch korrekte endliche Automaten ermSglicht. 
Dartlber hinaus kann ein endlicher Automat als "Unterprogramm" 
verwendet werden und umgekehrt. Dadurch entsteht die M5glich- 
keit, eine Konfiguration auf unterschiedliche Implement ie- 
rungstechnologien abziabilden, wie z.B. CPUs; symmetrische Mul- 
tiprozessoren; FPGAs; ASICs; VPDs. 

Insbesondere ist es moglich, Teilen einer Applikation die je- 
weils optimal geeignete Hardware zuzuordnen bzw. eine jeweilie 
Eignung zu bestimmen und anhand der mehr odef wenigier guten 
Eignung die optimale Hardware zuzuordnen. Dabei sind bevorzugt 
auch temporare Ressourcenverteilungen und -reservierungen er- 
fafibar. Mit anderen Worten wiirde beispielsweise eine Daten- 
flufistruktur einer DatenfluBarchitektur zugeordnet werden, 
wahrend eine sequentielle Struktur auf einen Sequenzer abge- 
bildet wird, sofem diese vorhanden und/oder verfttgbar sind- 

r 

Die entstehende Problemstellungen der Ressourcenzuweisungen 
fur die einzelnen Algorithmen konnen z.B. durch einen "Job As- 
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signmenf-Algorithmus zur Verwaltung der Zuordnung gelost wer- 
den. 

4 . Tmplementierting 

Die Implement ierung elnes erf indiingsgernkfien Compilers soil von 
eine "normaleh" sequeritiellen iPrbgreanmierspifache ausgehen, al- 
so z.B. C Oder Pascal. Diese Sprachen weisen die Eigenschaft 
auf, dass durch ihren sequentiellen Charakter eine zeitliche 
Abfolge implizit und ktinstlich durch die Sprachendefinition an 
sich generiert wird^ 
Beispiel A: 
Zeile 1: i++ 
Zeile 2: a=i*b : 
Zeile 3: X = p - a 
Zeile 4: j = i * i 

Durch die Sprachdef inition ist f est vorgegeben/ dass Zeile 1 
vor Zeile 2 vor Zeile 3 vor Zeile 4 ausgefiihrt wird. Aller- 
dings kdnnte Zeile 4 auch direkt nach Zeile 1 ausgefiihrt wer- 
den und somit parallel zu Zeile 2 und 3 bearbeitet werden. 

Mit anderen Worten werden durch .sequentielle Sprachen weitere 
kttnstliche und nicht algorithiaisch bedingte ZustSnde einge- 
baut. Wichtig ist lediglich die korrekte zeitliche Abfolge der 
Berechungen in Beispiel A. Zeile 4 darf erst berechnet werden, 
wenn i korrekt definiert ist, also nach der Abarbeitung von 
Zeile 1. Auch Zeile 2 darf erst nach der korrekten Definition 
von i (also nach der Abarbeitung von Zeile 1) verarbeitet wer- 
den. Zeile 3 benotigt die Ergebnisse von Zeile 2 (die Variable 
a) und darf daher erst nach derer korrekten Definition berech- 
net werden. Somit ergibt sich eine Datenabhangigkeit aber kei- 
ne besonderen Zustande. 

Anhand der Datenabhangigkeiten der Variable a in Zeile 2 und 3 
(Zeile 3 verwendet a als Operand, a ist das Ergebnis von Zeile 
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2) kann automatisch durch den Compiler folgende Transformation 
zur Reprasentation der Parallelisier- bzw. VeJctorisierbarkeit 
(ParVec-Transformation) durchgefuhrt werdien: 

Zeile 2: VEC{a = i * b; 

'-Zeiie^3:- * ' ' ■x*=p -a}" '- ^ ' ^ ^ ' -r ':' ' ■ 

VEC bedeutet, dass jeder durch ' ; ' getrennte Ausdruck nachein- 
ander abgearbeitet wird, wobei die Ausdrucke innerhalb der ge- 
schweiften Klammern grundsfitzlich gepipelinet. werden kdnnen.^ 
Bevorzugt mQssen samtliche Berechnungen am Ende von VEC{ } 
durchgeftlhrt und abgeschlossen sein, damit die Datenverarbei- 
tung hinter VEC fortgesetzt wird. 

Besser wird in eiher internen Representation der Datenstruktu- 
ren im Compiler die beiden Berechnungen als ein Vektor mar- 
kiert: 

VEC{a=i*b; x=p-q} 

Zeile 4 ergibt einen einfachen Vektor: 
VEC{j == i*il 

Da sich Zeile 4 gleichzeitig zu Zeile 2 und 3 berechnen iasst 
kann die Parallelitat folgendermassen ausgedrdckt werden: 

PAR{{VEC{a=i*b; x=p-a} ;VEC{ j==i*i} } 

PAR bedeutet, dass jeder durch getrennte Ausdruck zeit- 

gleich abgearbeitet werden kann. Bevorzugt massen s&ntliche 
Berechnungen am Ende von PAR{ } durchgefiihrt und abgeschlossen 
sein, damit die Datenverarbeitung hinter PAR fortgesetzt wird. 



Wird Zeile 1 mit einbezogen^ ergibt sich: 
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VEC{i++; PAR{{VECia=i*b; x=p-a} } {VEC{ j=i*i} } } } 

Da VEC{ j=i*i} ein Vektor mit nUr einem Element darstellt^ kann 
auch wir folgt geschrieben werden: 

yEC{i++; PAR{{VEC{a=i*b; x=p-a} } { j==i*i} } } 



Bin weiteres Beispiel zeigt einen echten Zustand.. 
Beispiel B: 



Zeile 1 
Zeile 2 
Zeile 3 
Zeile 4 
Zeile 5 
Zeile 6 



i++ 

a = i * b 
if a < 100 { 

X = p - a 
} else { 

j - i * i } 



Jetzt kann Zeile 6 nur noch nach der Berechnung von Zeile 2 
und Zeile 3 ausgefiihrt werden. Die Berechnung von Zeile 4 und 
6 findet altemativ statt. Also ist der Zustand von Zeile 3 
ftir die weitere Datenverarbeitung relevant (relevanter Zu-^ 
stand) . 

Bedingte Zustande kdnnen bei einer Transformation durch IF 
ausgedrtickt werden: 

Zeile 1-2: VEC{i++; a=i*b} 



Zeile 3 
Zeile 4 
Zeile 6 



IF{ { a<100 } { zeile4 } { zeile6} } 

VEC{x=p-a} 

VEC{j=i*i} . 



Zusammengefaflt ergibt das 

VEC{i++; a=i*b; IF{ {a<100} {VEC{x=p-a} } {VEC{ j=i*i} } } ) 
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Weitere relevante ZustSnde werden durch Schleifen erzeugt: 
Beispiel C: 



Zeile 1 
Zeile 2 
Zeile 3 



for (i = 1, i < 10/0, i++) 

a = a * i 
q = p / a 



Zeile 3 darf erst ausgefiihrt werden, nachdem die Sqhleife ter- 
miniert ist. Also bestehen bei bedingten SprOngen relevante 
Zust^nde. . . 

Eine erste Transformation der Schleife ergibt: 
Zeile 1: i=l; 

Zeile 2: loop: if i >= 100 then exit 
Zeile 3: a = a * i 

Zeile 4: i++ 
Zeile 5: jximp loop 

Zeile 6: exit: q « p / a 



Zeile 3 und 4 kdnnen parallel berechnet werden, da Zeile 4 
nicht vom Ergebnis von Zeile 3 abh^ngt:* 

PAR{{a=a*i){i++}} 

Zeile 5 ergibt einen Vektor niit dem generierten PAR, da erst 
nach volistandiger Berechnung der Werte wieder in die Schleife 
gesprungen werden darf (hier liegt also eine zeitliche l^bhSn- 
gigkeit vor) . 



VEC{PAR{{a==a*i}{i++}}; jump loop} 
Somit ergibt sich ftir die Bedingung: 

loop: IF{{i>=100}{jimp exit} {VEC{ PAR{ {a=a*i} {i++} } ; jump 
loop}}} 
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Die Zeile 1 ist ein Vektor mit der Bedingung, da diese vor der 
Bedingung ausgefOhrt werden muss (IF verwendet i als Operand, 
i ist das Ergebnis von Zeile 1) . 

Zeile 6 ist wiederum ein VektqTr mit der Bedingung, da a als 
Operand verwendet wird und a das Ergebnis der Bedingung ist. 

Somit ergibt sich (in iibersichtlicher Schreibweise) : 
VEC{ 

i++; 

. loop: IF{ . 
{i>=100} 
{jump exit) 
: {VEC{ 

PAR{ 

{a=a*i} 
{!++} 

}; 

jump loop 
} 

} 

}; 

exit: q=p/a. 

} . 

Die Inhalte von VEC{} und PAR {} kanneh als reiii kbmbinatori- 
sche Netze betrachtet werden. 

Bevorzugt wird VEC und PAR ale Petri-Netz ausgestaltet, um wie 
bevorzugt die Weitearverarbeitxmg nach kompletter Verarbeitung 
der jeweilgen Inhalte zu steuera. 

Durch die mSgliche Betrachtung von VEC und PAR als rein kombi- 
natorisches Netz entsteht die Notwendigkeit den Schleifenzu- 
stand zu sichern. D.h. in diesem Fall ist es tatsSchlich not- 
wendig einen endlichen Automaten zu schaffen. 
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Die Anweisung REG{} speichert dazu Variablen in einem Regi- 
ster. Somit entsteht durch die Verwendung der kombinatorischen 
Netze VEC und PAC in Verbindung mit dem Register REG ein end- 
licher Automat^ der exakt ent^rechend des Algorithmus aufge- 
baut ist: 



VEC{ 

i++; 

loop: IF{ 

{i>=100} : 
{jump exit) 
{VEC{ 

• PARI • • 

{a=a*i} 
{i++} 

}.; 

REG{a/i} 
jump loop 
} 

} 

); 

exit: q=p/a 
} . ■ . 

Es soil besonders darauf hingewiesen werdeii, dass' in der VPU 
Technologie des Anmelders (vgl. PACT21) Ein- und/oder Aus- 
gangsregister an den PAEs vorgesehen sind iind die zeitliche 
Korrektheit und die Verftigbarkeit von Daten durch ein inte- 
griertes Handshake-Protokoll (RDY/ACK) sichergestellt ist. In- 
soweit wird die Forderung bevorzugt beim Verlassen von VEC{} 
Oder PAR{ } deren interne Datenverarbeitung abgeschlossen zu 

r 

' haben automat isch fiir alle nachfolgend verwendeten Variablen 
erfiillt (ware die Datenverarbeitung nicht beendet, wtirden 
nachfolgende Berechnungsschritte auf die Beendigung und das 
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Eintref f en der Daten warten) . Durch die integrierten Register 
sind auch schwingende Rtickkopplurigen ausgeschlossen. 

Insoweit ist nachfolgender Terfa far diese Technologie korrekt: 
VEC{PAR{{a=a*i}{i++}}; jtin?) loop} 

FUr andere Technologien, die die o.g. Ausgestaltungen nicht 
Oder nur teilweise aufweisen^ sollte der Term folgendermassen 
formuliert werden: 

VEC{P7^{{a=a*i}{i++}}; REG{a;i}; juinp .lopp}. . 

Es soil darauf hihgewieseh werden, dass diese Form auf * jedeh 
Fall auch in der VPU-Technologie. des Anmelders zu einer kor- = 
rekten und optimalen Abbildung des Algorithmus auf den rekon- 
figurierbaren Prozessor fuhrt* 

REG kann innerhalb der kombinatorischen Netze VEC und PAR ver- 
wendet werden. Streng betrachtet verlieren dadurch VEC und PAR 
die Eigenschaft der kombinatorischen Netze. Abstrakt kann je- 
doch REG als ein kon?>lexes Element (REG-Element) eines kombi- 
natorischen Netzes betrachtet werden, dem eine eigene Abarbei- 
tungszeit zugrunde liegt. Die Bearbeitung der nachf olgenden 
Elemente wird vom .der Beendigung der. Berechnung des REG- 
Element es abh^ngig gemacht. 

In dem Bewusstsein dieser begriff lichen Drigenauigkeit wird ei- 
ne Verwendung von REG innerhalb von VEC und PAR im Weiteren 
zugelassen und ist insbesondere auch notwendig. 

Wie bereits vorstehend erwShnt, ist die Verwendung von REG ty- 
pischerweise innerhalb einer Konfiguration einer VPD des An- 
melders nicht erforderlich, sondern explizit immer nur dann, 
wenn die Berechnungsergebnisse einer Konfiguration abgespei- 
chert werden, sodass REG ein diesem Anwendungsfall tatsachlich 
dem expliziten Register eines endlichen Automaten entspricht. 
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Neben der Synthese von endlichen Automaten ftir Schleifen, sind 
insbesondere in einem weiteren Fall endliche Automaten eirfbr- 
derlich: 

1st ein Algorithmus zu qxoR, urn komplett innerhalb der PAEs 
eines rekohfigurierbareri Prozessbrs abgeairbeitet zu werden, 
mufl er in mehrere Teilalgorithmen . zerlegt werden. Jeder Tei- 
lalgorithmus stellt eine Konfiguration ftir den rekonfigurier- 
baren Prozessor dar- Nacheinanderr also sequentiell, werden 
die Teilalgorithmen auf den Prozessor konfiguriert, wobei die 
Ergebnisse der jeweils vorhergehenden Konfiguration (en) fur 
die jeweils neue Konfiguration als Operandeh dienen. 

Mit anderen Worten entsteht durch die Rekonfiguration ein end- 
licher Automat, der zu einem Zeitpunkt t Daten bearbeitet und 
speichert und zu einem Zeitpunkt t+1, mdglicherweise nach ei- 
ner Konfiguration, die gespeicherten Daten ggf . anders verar- 
beitet und wieder speichert. Wesentlich ist, dass t nicht im 
klassischen Sinn durch Takte Oder Befehle definiert wird, son- 
dern durch Konf igurationen. Hierzu sein besonders die Presen- 
tation Prozessormodell (PACT, Oktober 2000, San Jose) referen- 
ziert, 

Mit noch anderen Worten besteht eine Konfiguration aus einem. 
kombinatorischen Netz aus VEC und/oder PAR, dessen Ergebnisse 
gespeichert werden (REG) , torn in der nSchsten Konfiguration 
weiterveantfendet zu werden: 

Konfiguration 1: VEC{Operands; {VEC| PAR) ;REG{Resultsl} } 
Konfiguration 2: VECCResultsl; {VECIPAR} ;REG{Results2} } 

Zum einfacheren Verstandnis haben die obigen Beispiels und Be- 
schreibungen die Konstrukte VEC, PAR und REG in der Hochspra- 
chen eingeftlhrt und diese dadurch strukturiert. Typischerweise 
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und bevorzugt wird diese Strukturierung erst aber auf der Ebe- 
ne der Zwischensprache (siehe Principles of Compiler Dissign 
(Red Dragon), Aho, Sethi, Ullmann) eingeftihrt. 
Es soil besonders darauf hingeTwiesen werden, dass die Struktu- 
rierung von Algorithmen mit VEC, PAR und REG typischerweise 
vollkonmien automktiisch durch den Cdnipiie Methoden wie 

z.B- Graphenanalyse durchfiihrbar ist. 

Insbesondere ist es aber auch denkbar und teilweise von Vor- 
teil dem Programmierer selbst die Strukturierungfsm6glichkeit 
in der Hochsprache dadurch zu ermoglicheh, dass VEC, PAR und 
REG wie oben aufgezeigt direkt in der Hochsprache beschreibbar 
sind. 

Generiertmg 

Die automatische Erstellung von VEC, PAR.und REG kann auf un- 
terschiedlichen Ebenen einen Compilierungsvorganges durchge- 
ftihrt werden. Die zunSchst einleuchtendste ist wahrend eines 
PrSprozessor-Durchlaufes auf Basis des Source-Codes wie in den 
vorigen Beispielen beschrieben. Fiir die weitere Conpilierung 
ist danach. allerdings ein speziell angepasster Compiler erfor- 
derlich. 

Ein weiterer Aspekt ist, dass Compiler zumeist automatische 
Optimierungen von Code vornehmen (z.B. in Schleif en) . Eine ef- 
fiziente Zerlegung des Codes ist daher erst nach den Optimie- 
rungslaufen sinnvoll, insbesondere wenn Compiler (wie z.B. 
SUIF, Universitat Stanford) bereits den Code fiir Parallelisi- 
serung und/oder Vectorisierung hin optimieren. 

r 

Die daher besonders bevorzugte Methode ist die Einbindung der 
Analysen in das Backend eines Compilers. Das Backend iibersetzt 
eine compilerinteme Datenstruktur auf die Befehle eines Ziel- 
prozessors. 
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Als compilerinterne Datenstrukturen werden zumeist Zeiger- 
strukturen wie DAGs/GAGs, Trees oder 3-Adress-Codes verwendet 
(siehe Principles of Compiler .Design (Red Dragon), Aho^ Sethi, 
Ullmann) . Teilweise werden auch Stack-Machine-Codes verwendet 
Uiehe Compiler selbstgWchneiderty G'T 1986 1-5) . Da die Da- 
tenformate prinzipiell aquivalent sind und ineinander trans- 
formiert werden kdnnen, setzt die erfindungsgemaB bevorzugte 
Methode auf der Weiterverarbeitxing ,von Graphen, wie bevorzugt 
Trees, auf. r 

Datenabhangikeiten und m5gliche Parallelitaten entsprechend 
dem vorstehend beschriebenen Verf ahren sind innerhalb von 
Trees einfach auf Basis der Struktur automatisch zu erkennen. 
Hierzu kanrien beispielsweise bekannte und etablierte Verf ahren 
der Graphenanalyse eingesetzt werden. Alternativ oder optional 
kann durch entsprechend adapt ierte Parsingmethoden ein Algo- 
rithmus auf Datenabhangikeiten, Schleifen, SprOnge etc. hin 
untersucht werden. Dabei kann ein Verf ahren Mhnlich dem der 
Auswertung von Ausdrdcken in Compilern verwendet werden. 

Abbxldnng 

Die weitere Transformation des Algorithmus ist. nunmehr stark 
von der Zielarchitektur abhSngig. Beispielsweise bietet die 
Prozessorarchitektur des Anmelders (VPU, XPP) automatische Da- 
tensynchronisation in Hardware. Das bedeutet, dass die korrek- 
te zeitliche Abfolge von Datenabhangigkeiten automatisch in 
der Hardware gehandhabt wird. Andere Architekturen benatigen 
zum Teil zusatzlich die Synthese geeigneter Zustandsmaschinen 
ftir die Steuerung es Datentransf ers . 

Besonders interessant ist die Handhabung bedingter SprOnge. 
Beispielswiese stellt die Prozessorarchitektur des Anmelders 
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laehrere Mechanismen zu derer iUDbildung und Ausfuhrung zur Ver- 
ftlgung: 

1. Rekonfigruration des Prozessors oder Teilen des Prozessors 
durch eine tibergeordnete Konfi'gurationseinheit (vgl. Patentan- 
meldungien) PACTOi, 04, 05/ 10/ 13, 17) 

2. Auswalzen der Fuhktion in das Array aus PAEs (vgl. Pa- 
tentanmeldung PACT08), dabei werden z.B. beide moglichen Zwei- 
ge eines Vergleiches zugleich auf das Array abgebildet. 

3. Wave Rekonf iguration nach Patent anmeldung (en) PACT08, 13, 
17), dabei wird den unterschiediich zu bearbeitenden Daten ein 
Token iciitgegeben, das die jeweils gUltige Konf iguration wahlt. 

Es soil erWahnt sein, dass def Mechainismus 1 der allgemein ty- 
pisch anzuwendende Fall ist. Der Mechanismus 2 ist bereits bei 
den meisten Technologien sehr aufwendig oder gar nicht imple- 
ment ierbar und der Fall 3 ist bislang nur aus der VPD- 
Technologie des Anmelders bekannt- 

Die jeweils zu wShlende Ausfahrungsmethode hangt von der Kom- 
plexitat des Algorithmus, dem erforderlichen Datendurchsatz 
(Performance) und der exakten Ausgestaltung des Zielprozessors 
ab (z.B. Anzahl der P2ffis) . 
Beispiele: 

Ein; einf acher Vergleich soil folgendes Berechnen: 
if i < 0 then a=a*(-i) else a=a*i 

Eine Rekonf iguration des Prozessors (Mechanismus 1) je nach 
Ergebnis des Vergleichs scheint wenig sinnvoll zu sein. 
Das Auswalzen beider Zweige in das Array (Mechanismus 2) ist 
Grundsatzlich m5glich. Je nach Ergebnis des Vergleichs werden 
entweder die a=a*(-i) oder a=a*i berechnenden PAEs angesteuert 

r 

(vgl. FACTO 8) . 

Besonders platzef f izient ist das (Jberlagern der beiden Berech- 
nungen (Mechanismus 3), wodurch nach dem Vergleich unabhangig 
vom Ergebnis dieselbe(n) PAEs die Daten weiterverarbeiten, die 
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Daten aber mit einem Token versehen sind, das sodann in Abhan- 
gigkeit vom Vergleich lokal in den jeweils nachfolgenden die 
Daten verarbeitenden PAEs entweder die Funiction a=a*(-i) oder 
a=a*i auswahlt. (vgl- PACT08, 13, 17). 

Nach Mechahisnius 1 entsteht eiri global relevanter Zustand/ dai i 
die komplette folgende Konfiguration davon abhSngig ist. 

Nach Mechanismus 2 xind 3 entstehen nur ein lokal relevanter 
Zustand/ da dieser Qber die Berechnung hinaus - die vollstan- 
dig implementiert ist - nicht mehr ben5tigt wird. . 

Mit anderen Worteri kann die lokale oder globale Relevariz von 
Zustanden auch von der gewahlten Abbildvmg auf die Prozessor- 
architektur abheLrigen. 

Ein Zustand der Qber eine Konfiguration hinaus und somit tiber 
das kombinatorische Netz des eine Konfiguration reprSsentie- 
renden endlichen Automaten hinaus relevant ist (also von nach- 
folgenden endlichen Automaten benotigt wird), kann grundsStz- 
lich als global betrachtet warden. Es soil nochmals auf die 
verwendete diffuse Terminologie des Begrif fes kombinatorisches 
Netz hingewiesen werden. 

Befefalsmodell das entstandenen Prozessors 

Entsprechend der vorliegenden Erfindung entsteht ein Prozes- 
sormodell ftir rekonfigurierbare Prozessoren, das alle wesent- 
lichen Befehle umfafit: 

Arithmetisch/logische Befehle werden direkt in das kombinato- 
rische Netz abgebildet. 

Sprtinqe (Jump/Call) werden entweder direkt in das kombinatori- 
sche Netz aiisgewalzt oder durch Rekonfiguration realisiert. 
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Bedingvinq und KontrollfluBbefehle (if ^ etc) werden entweder im 
kombinatorischen Netz vollstandig aufgeiost vmd bearbeitet 
Oder an eine iibergeordnete Konf igurationseinheit weitefgelei- 
tet, die sodann entsprechend des entstandenen Status eine Re- 
konfiguratioh durchftihrt. 

Load/Store-O&drationen werden bevorziigt in separate Konfigura- 
tionen abgebildet und durch Adressgeneratoren ahnlich den be- 
kannten OMR's realisiert, die intemen Speicher (RBG{}) mit- 
tels Adressgeneratoren in externe Speicher schreiben oder die- 
se von externen Speichern und/oder Peripherie laden. Sie kdn^- 
nen aber auch zusamaen mit der datenverarbeitenden Konf igura- 
tion konfiguriert sein iind arbeiten. 

Reqister-Move-Operationen werden im kombinatorischen Netz 
durch Busse zwischen den internen Speichern {REG{}) reali- 
siert . 

Push/Pop-Qperationen werden durch separate Konfigurationen 
realisiertr die ggf . bestimmte interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{}) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus ex- 
ternen Speichern lesen und die bevorzugt vor oder nach den ei- 
gentlichen datenverarbeitenden Konfigurationen ausgefuhrt wer- 
den. 

5. Beschreibnnq der Fxqturen 

Die nachfolgenden Figuren zeigen Implementierungs- und Ausge- 
staltungsbeispiele des Compilers. 

Figur la zeigt den Aufbau eines gewohnlichen endlichen Automa- 
ten, bei welchem ein kombinatorisches Netz (0101) mit einem 
Register (0102) verkniipft ist. Daten k5nnen direkt an 0101 
(0103) und 0102 (0104) gefahrt werden- Durch eine Ruckkopplung 
(0105) des Registers auf das kombinatorische Netz ist die Ver- 
arbeitung eines Zustandes in Abhangigkeit des/der vorhergehen- 
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den Zustande moglich. Die Verarbeitungsergebnisse werden durch 
0106 dargestellt. 

Pigixr lb zeigt eine ReprSsent^ion des endlichen Automaten 
durch eine rekonficfurierbare Architektur na^^^ 
PACT04 (PACT04 : Fig. 12-15) . Das koinbiriatdrischen Netz aus Fi- : 
gur la (0101) wird durch eine Anordnung von PAEs 0107 ersetzt 
(0101b). Das Register (0102) wird durch einen Speicher (0102b) 
ausgefuhrt, der mehrere Zyklen speichern kann. Die RQckkopp- 
lung gemSB 0105 erfolgt durch 0105b. . Die Eingange (0103b bzw-. . 
0104b) sind Equivalent 0103 bzw 0104. Der direkte Zugriff auf 
0102b kann ggf- durch einen Bus durch das Array 0101b reali- 
siert werden. Der Ausgang 0106b ist wiederum Equivalent 0106. 



Figur 2 zeigt die Abbildung eines endlichen Automaten auf eine 
rekonfigurierbare Architektur. 0201 (x) reprSsentieren das kom- 
binatorische Netz (das entsprechend Figur lb als PAEs ausge- 
staltet sein kann) . Es existieren ein oder mehrere Speicher 
fiir Operanden (0202) und ein oder mehrere Speicher fUr Ergeb- 
nisse (0203). Zusatzliche Daten Ein-/Ausgange gem. 0103b, 
0104b, 0106b) sind der Einfachhieit halber nicht dargestellt. 
Den Speichern zugeordnet ist jeweils ein Adressgenerator 
(0204, 0205) . 

Die Operanden- und Ergebnissipeicher (0202, 0203) sind physika- 
lisch Oder virtuell derart miteinander verkoppelt, daB bei- 
spielsweise die Ergebnisse einer Funktion bzw. einer Opera- 
tion einer anderen als Operanden dienen konnen und/oder sowohl 
Ergebnisse als auch neu zugefUhrte Operanden einer Funktion 
einer anderen als Operanden dienen kOnnen. Eine derartige 
Koppliing kann beispielsweise durch Bussysteme hergestellt wer- 
den Oder durch eine (Re) Konf iguration durch welche die Funkti- 
on und Vernetzung der Speicher mit den 0201 neu konfiguriert 
wird- 
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Figur 3 zeigt verschiedene Aspekte zum Umgang mit Variablen. 
In Figor 3a zeigen 0301, 0302, 0303 verschiedene Stufen der 
Beirechnung. Diese Stufen konnen rein kombinatorisch oder auch 
iiber Register voneinander getj?ennt sein. fl, f2, f3 sind Funk- 
tionen, xl ist eine Variable gemaB Patentbeschreibung. . 
Figor . 3b zeigt die Verwendung einer Variablen xl . in der Funk- . 
tion xl :« xl + 1. 

Figur 3c zeigt das Verhalten eines endlichen Automaten zur Be- 
■rechnung von xl := xl + 1 innerhalb einer Konf iguration . In 
der .nachsten Kpnf iguration sind. 0306 und 0304 zu. vertauschen 
um einen vollstSndigen endlichen Automaten zu erhalten. 0305 
reprSsentieft die Adressgeneratoren fiir die Speicher 0304 und 
0306. 

Figur 4 zeigt Implement ierungen von Schleifen. Die schraffier- 
ten Module konnen durch Makros generiert werden (0420, 0421) . 
0421 kann auch durch Analyse des Graphen auf unverzdgerte 
Rtickkopplungeh eingefiigt werden. 

Figur 4a zeigt die Implementierung einer einfachen Schleife 
der Art 
WHILE TRUE DO 

xl := xl + 1; 

Im Kern der Schleife liegt der zahler +1 (0401) . 0402 ist ein 
Multiplexer, der zu Beginn den Startwert von xl (0403) auf 
0401 ftihrt urid sodann bei jeder Iteration die RUckkopplurig 
(0404a, 0404b) bewirkt. In die Rtickkopplung ist ein Register 
(vgl. REG{}) (0405) eingesetzt, um eine unverz5gerte trnd damit 
unkontrollierte Rtickkopplung des Ausgangs von 0401 auf dessen 
Eingang zu verhindern. 0405 wird mit dem Arbeitstakt der VPU 
getaktet .und bestimmt damit die Anzahl der Iterationen pro 
Zeit. Der jeweilige Zahlerstand ware an 0404a oder 0404b ab- 

r 

greifbar. Je nach Definition der Hochsprache terminiert die 
Schleife jedoch nicht. Beispielsweise ware in einer HDL (nach 
dem Stand der Technik (z.B. VHDL, Verilog) das Signal auf 0404 
nutzbar, wShrend es in einer sequentiellen Prograramiersprache 
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(z.B. C) 0404 nicht nutzbar ist, da die Schleife nicht ternii- 
niert und somit keinen Exit-Wert liefert. 

Der Multiplexer 0402 realisiert ein Makro, das aus dem Schlei- 
fenkonstrukt entstanden ist. IJ^s Makro wird durch die Oberset- 
zung von WHILE instantiiert . 

Das Register D405 ist entweder ebenfalls Teil des Makros oder 
wird entsprechend einer Graphenanalyse nach dem Stand der 
Technik exakt dann und dort eingeftigt, wo eine unver25gerte 
Rtlckkopplung existiert^ um so die Schwingneigung auszuschal- 

ten- .... 

Figar 4b zeigt den Aufbau einer echten Schleife der Art 
WHILE xl < 10 DO 
xi := xl + 1; 

Der Aufbau entspricht im Kern der Figur 4a, weshalb dieselben 
Referenzen verwendet wurden. 

Zusatzlich ist eine Schaltung dargestellt, die die Gilltigkeit 
des Ergebnisses kontrolliert (0410) und das Signal von 0404a 
nur dann an die nachfolgenden Funktionen (0411) weiterleitet, 
wenn das Abbruchkriterium der Schleife erreicht ist. Das Ab- 
bruchkriterium wird durch den Vergleich xl < 10 festgestellt 
(Vergleichsstufe 0412) . Als Ergebnis des Vergleiches wird das 
betreffende Statusflag (0413) an ein Multipliziermittel 0402 
zur Steuerung der Schleife und die Funktionen 0411 zur Kon- 
trolle der Brgebnisweit^rf Ohrung geleitet . Das Statusflag 0413 
kann beispielsweise diurch Trigger gemSB DE 197 04 728.9 imple- 
mentiert sein. Ebenfalls kann das Status flagmitt el 0413 an ei- 
ne CT gesendet werden, die daraufhin die Terminierung der 
Schleife erkennt und eine Rekonfiguration durchftihrt. 

Figur 5a zeigt die iterative Berechnung von 
FOR i:=l TO 10 

xl := xl * xl; 

Im wesentlichen entspricht die Grundfunktion Figur 4b, weshalb 
die Referenzen (Ibernoinmen wurden. Der Funktionsblock 0501 be- 
rechnet die Multiplikation. Die FOR-Schleife wird durch eine 



wo 03/017095 PCT/EP02/10065 

49 

weitere Schleife entsprechend Figur 4b implementiert und ist 
lediglich durch Block 0503 angedeutet • Block 0503 liefert den 
Status des Vergleiches auf das Abbruchkriterium. Der Status 
wird direict zur Ansteuerung d^ Iteration verwendet, wodurch 
das Mittel 0412 (dargestellt durch 0502) weitgehend entfallt. 

Figur 5b zeigt das Auswalzen der Berechnung von 
FOR i:=l TO 10 

xl := xl * xl; . ....... 

Da die Anzahl der Iterationen zur Obersetzungszeit exakt be- 
kannt ist^ kann die Berechnung in eiiie E*olgei von i Multipli- 
zierern (0510) abgebildet werdeh- 



Figur 6 zeigt die Ausftihrung einer WHILE-Schleife gem. Figur 
4b Ober. mehrere Konfigurationen. Hier ist der Zustand der 
Schleife (0601) ein relevanter Zustand^ da dieser die Funktion 
in den nachfolgenden Konfigurationen maBgeblich beeinfluBt. 
Die Berechnung erstreckt sich tiber 4 Konfigurationen (0602, 

0603, 0604, 0605) . Zwischen den Konfigurationen werden die Da- 
ten in Speichern (vgl.. ?IEG{}) abgelegt (0606, 0607). 0607 er- 
setzt dabei ebenfalls 0405. 

Als ein Rekonfigurationskriterium kann der. Fdllstand der Spei- 
cher dienen, angedeutet tiber 0606, 0607: Speicher voll/leer 
und/oder 0601, das den Abbruch der Schleife anzeigt. Mit ande- 
ren Worten werden durch den Fflllstand der Speicher Trigger ge- 
neriert (vgl. PACTOl, PACT05, PACT08, PACTIO) , die an die Kon- 
figurationseinheit gesendet werden und eine Rekonfiguration 
ausiasen. Auch der Zustand der Schleife (0601) kann an die CT 
gesendet werden. Daraufhin kann die CT bei Erreichen des Ab- 
bruchkriteriums die nachfolgenden Algorithmen konfigurieren, 
bzw. ggf . zunSchst die rest lichen Telle der Schleife (0603, 

0604, 0605) abarbeiten und danach die nachfolgenden Konfigura- 
tionen laden. 
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6. Parailelisierfaarkeit 

Figur 6 zeigt potentielle Grenteen der Parallelisierbarkeit 
' auf . 

Sofem die Berechnung der Operanden xinabMngig von der Ruck- 
kopplung 0608 ist, kann die Schleife blockweise, d.h. jeweils 
durch Ftillen der Speicher 0606/0607 berechnet werden. Daitiit 
wird ein hoher Grad an Parallelitat erreicht. 

Soferri die Berechnung eines Operanden . abhangig von dera Ergeb- 
nis der vorherigen Berechnung ist, alsd eine Rtickkopplung oder 
dergleichen 0608 in die Berechnung einflieBt^ wird das Verfah- 
ren inef fizienter, da jeweils nur ein Operand innerhalb der 
Schleife berechnet werden kann. 

ist der nutzbare ILP (Instruktionslevel Parallelismus) inner- 
halb der Schleife hoch und die Zeit fttr die Rekonf iguration 
nieder (vgl- PACT02, PACT04r PACT13, PACT17), kann eine auf 
PAEs ausgewalzte Berechnung auf einer VPO weiterhin effizient 
sein. 

Ist dies nicht der Fall, ist es sinnvoll, die Schleife auf ei- 
ne sequentielle Architektur (vom PA separ^ter Prozessor oder 
Implementierung innerhalb des PA entsprechend DE 196 51 075.9- 
53, DE 196 54 846.2-53 und insbesondere DE 199 26 538.0 (Fig. 
5r 11, 16, 17, 23, 30, 31, 33)) abzubilden. 

Die Analyse der Berechnungszeiten kann entweder im Compiler 
zur Obersetzungszeit gemcLB dem nachfolgenden Abschnitt erfol- 
gen und/ Oder empirisch zu der oder einer Laufzeit gemessen 
werden, urn eine nachtrSgliche Optimierung herbeizuflihren, was 
zu einem lernfahigen, insbesondere selbstlemenden Compiler 
fOhrt. 



wo 03/017095 



PCT/EP02/10065 



51 

Fiir die Erfindung sind Analyse- uhd Paraileiisierungsverfahren 
von Bedeutung. 

Verschiedene Verf ahren nach dein Stand der Techniic stehen far 
die Analyse und Dxirchf ahruhg der Parallelisierung zur Verf tt- 
•gung." 

Ein bevorzugtes Verfahren soli im Folgenden beschrieben wer- 
den. 

Abzubildende Funktionen werden durch Graphen dargestellt (vgl. 
PAGT13; DE 199 26 538.0), wobei eine Applikation aus beliebig 
vielen unterschiedlichen Funktionen zusammengesetzt sein kann. 
Die Graphen werden auf die in ihnen . enthaltehie Parallelitat 
untersucht/ wobei vorab samtliche Methoden der Optimierung zum 
• Einsatz kommen kSnnen. 

Beispielsweise sollen folgende Untersuchungen durchgefOhrt 
werden: 



6,0,1 ILP (Instruction Level Parallelism) 

ILP driickt aus,. welche Befehle zeitgleich ausgefUhrt werden 
konnen (vgl. PAR{}). Eine derartige Analyse wird auf Basis der 
Betrachtung von AbhSngigkeiten von Knoten in einem Graphen 
einfach m5glich. Entsprechende Verfahren sind nach dem Stand 
der Technik und in der Mathematik per se hinreichend bekannt, 
es soil beispielsweise auf VLIW-Coinpiler \md Synthesetools 
verwiesen werden. 

Besondere Beachtung benStigen aber z. B. gegebenenfalls ver- 
schachtelte bedingte Ausftihrungen (IF), da eine korrekte Aus- 
sage der parallel ausfiihrbaren Pfade oftmals kaum oder nicht 
zu treffen ist, da eine starke AbhSngigkeit vom Werteraum der 

r 

einzelnen Parameter besteht, der oftmals nicht oder nur unzu- 
reichend bekannt ist. Auch kann eine exakte Analyse derart 
viel Rechenzeit in Anspruch nehmen, dafi sie nicht mehr sinn- 
voll durchfUhrbar ist. 
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In derartigen FMllen kann beispielsweise die Analyse durch 
Hinweise vom Prograramierer vereinfacht werden und/oder es kahn 
anhand entsprechender Compilerschalter defart gearbeitet war- 
den, dafl im Zweifelsfall entwQ^der von einer hohen Parallelir 
sierbarkeit (ggf. unter Verschwendung von Reissourcen) Oder von 
einer' niederen. Paraillielxsierbarkeit (ggf . unter: Verschwendung . 
von Performance) ausgegangen werden soli. 

Ebenf alls kann in diesen Fallen eine empirische Analyse zur 
Laufzeit durchgefiihrt werden. Nach PACTIO, PACT17 sind Verfah- 
ren bekannt, die zur Laufzeit die Erstellung von Statistiken 
uber das Prograimaverhalten erlauben. Derart kann z. B. zu- 
nachst von einer maximalen Parallelisierbarkeit ausgegangen 
werden. Die einzelnen Pfade geben Meldungen an eine Stati- 
stikeinheit (z. B. implementiert in einer CT Oder einer ande- 
ren Stufe^vgl. PACTIO, PACT17, grundsatzlich konnen aber auch 
Einheiten nach PACT04 verwenden werden) Qber jeden Durchlauf 
zurttck. Mittels statist ischer MaBnahmen ist nunmehr auswert- 
bar, welche Pfade tatsachlich parallel durchlaufen werden. 
Weiterhin ergibt sich die M5glichkeit, anhand der Daten zur 
Laufzeit zu bewerten, welche Pfade hauf ig Oder, selten oder nie 
parallel durchlaufen werden. Diese Art der Pfadnutzungsmeldung 
ist nicht zwingend, aber vorteilhaft. . 

Dementsprechend kann die Ausftihrung bei einem nachsten Pro- 
granntiaufruf optimiert werden. DaB dazu die Statistikinformati- 
on insbesondere nichtf Ittchtig. wie auf eine Festplatte wegge- 
schrieben werden kann, sei erwahnt. Aus PACT22, PACT24 ist be- 
kannt, daB mehrere Konf igurationen entweder zugleich konfigu- 
riert werden konnen und danach durch Trigger (PACT08) ange- 
steuert werden oder nur eine Untermenge konfiguriert ist und 
die restlichen Konf igurationen bei Bedarf dadurch nachgeladen 
werden, daB die entsprechenden Trigger an eine Ladeeinheit 
(CT, PACTIO) gesendet werden. 

Der im folgenden gebrauchte Wert PAR(p) gibt zur Verdeutli- 
. Chung an, welche Parallelitat auf Instruktionsniveau, d. h. 
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wieviel ILP bei einer bestimmten Stufe (p) innerhalb des aus 
der Funktion trans formier ten DatenfluBgraphen erreichbar ist 
(Figur 7a) . 

Gieichfalis bedeutsam- ist Vektdrparallelitat (vgl; VEe{ } ) / 
Vektorparallelitat ist nutzbar, wenn groBere Datenmengen zu 
verarbeiten sind. In diesem Fall sind lineare Folgen von Ope- 
rationen vektorisierbar, d.h. alle Operationen konnen gleich- 
zeitig Datenverarbeiten, wobei typischerweise. jede separate 
Operation ein separates Datenwort bearbeitet. 

Innerhalb von Schleifen ist dieses Vorgehen teilweise nicht 
mdglich. Daher sind Analysen und Optimierungen notwendig. 
Beispielsweise kann der Graph einer Funktion durch ein Petri- 
netz ausgedrUckt werden. Petri-Netze besitzen die Eigenschaft, 
dafi die Ergebnisweitergabe von Knoten kontrolliert erfolgt/ 
wodurch beispielsweise Schleifen modelliert werden kSnnen, 
Durch die Rttckkopplung des Ergebnisses in einer Schleife wird 
der batendurchsatz bestimmt. Beispiele: 

• Das Ergebnis der Berechnung n wird fQr die Berechnung n+1 

benotigt: Nur eine Berechnung kann innerhalb der Schleife 
ausgefuhrt werden. 

• Das Ergebnis der Berechnung n wird fiir die Berechnung n+m 

benotigt: m-1 Berechnungen k5nnen innerhalb der Schleife 
ausgeftihrt werden. 

• Das Ergebnis bestimmt den Abbruch der Schleife, geht aber 

nicht in die Berechnung der Ergebnisse ein: Eine Riick- 
kopplung ist nicht notwendig. Ggf. laufen zwar falsche 
(zuviel) Werte in die Schleife^ jedoch kann die Ausgabe 
der Ergebnisse direkt bei Ei>reichen der Endbedingung am 
Schleifenende unterbrochen werden. 

Vor der Analyse von Schleifen kdnnen diese nach dem Stand der 
Technik optimiert werden. Beispielsweise konnen bestimmte In- 
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struktionen aus der Schleife herausgezogen werden und vor oder 
nach die Schleife gestellt werden • 

Der im Folgenden zur Verdeutlifchiing gebrauchte Wert VEC kann 
den Grad der Vektorisierbarkeit einer Funktion veranschauli- 
cheri. Mit anderen Wortert zeigt VEC an>. wieviele. Datenworte zttr 
gleich innerhalb einer Menge von Operationen bearbeitet werden 
kdnnen. VEC kann beispielsweise aus der Zahl der ben(3tigten 
Rechenwerke far eine Funktion nnodes und der zugleich innerhalb 
des Vektors.ber.echenbaren Daten naata berechnet werden^ z.B. 
durch VEC = nnodes / n<iata 

1st eine Funktion beispielsweise auf 5 Rechenwerke abbildbar 
(nnodes " 5) und in jedem der Re^chenwerke kSnnen zugleich Daten 
bearbeitet werden (ndata = 5) ist VEC = 1 (Figur 7b) . 
1st eine Funktion dagegen beispielsweise auf 5 Rechenwerke ab- 
bildbar (Unodes = 5) und nur in einem Rechenwerk k5nnen jeweils 
Daten bearbeitet werden^ z. B- aufgrund einer Ruckkopplung der 
Ergebnisse der Pipeline auf den Eingang (naata = 5)^ so ist VEC 
= 1/5 (Figur 7c) . 

VEC kann fiir eine gesjamte Funktion und/oder f(ir Teilausschnit- 
te einer Funktion berechnet werden. FUr den erfindungsgemafien 
Compiler kdnnen beide Varianten vorteilhaft sein^ wie generell 
die Bestinnaung und Auswertuiig von VEC vorteilhaft ist-. 

GemSB Figur 7a wird P2\R(p) fQr jede Zeile eines Graphen be- 
st iinmt, wie vorteilhaft mSglich. Bine Zeile eines Graphen ist 
dadurch definiert, dafi sie innerhalb einer Takteinheit ausge- 
ftihrt wird. Die Anzahl der Operationen ist von der Implemen- 
tierung der jeweiligen VPD abhSngig. 

Entspricht PAR(p) der Anzahl der Knoten in der Zeile p, so 
kannen alle Knoten parallel ausgeftihrt werden. 
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1st PAR(p) kleiner, werden bestimmte Knoten nur alternativ 
ausgeftihrt* Die alternativen Ausfiihrungen jeweils eines Kno- 
tens werden in jeweils eiher PAE zusanimengefaBt. Eine Selekti^ 
onsvorrichtung ermoglicht die /Aktivierung der, dem Status der 
Datehverarbeitung entsprechenden. Alternative zur Laiifzeit wie 
; beispielsweise in PACT08 beschrieben. 

VEC wird ebenfalls jeder Zeile eines Graphen zugeordnet. 1st 
far eine Zeile VEC = 1/ bedeutet dies, daB die Zeile als Pipe- 
iinestufe bestehen bleibt. 1st eine Zeile. kleiner. 1, so werden 
alle nachfolgenden Zeilen, die ebenfalls kleiner 1 sind zusaiti- 
mengefafit, da ein Pipelining' nicht moglich ist.' Ehtsprechend 
der Reihenfolge der Operationen werden diese zu einer Sequenz 
zusammengefaJat, die dann in eine PAE konfiguriert wird und zur 
Laufzeit sequent iell abgearbeitet wird. Entsprechende Verfah- 
ren sind beispielsweise aus PCT/DE 97/02949 und/oder PCT/DE 
97/02998 bekannt. 

Durch das beschriebene Verfahren lassen sich durch Gruppierun- 
gen von Sequenzern beliebig komplexe Parallelprozessormodelle 
aufbauen. Insbesondere sind Sequenzerstrukturen zur Abbildung 
von reentrant em Code generierbar, . 

Die dazu jeweils notwendigen Synchronisationen kdnnen bei- 
spielsweise durch das in PACT18 beschriebene TimeStamp- 
Verfahren oder bevorzugt durch das in PACT08 beschriebene 
Triggerverfahren durchgeftlhrt werden. 

Werden mehrere Sequenzer oder sequentielle Telle auf ein PA 
abgebildet, ist es aus Leistungsverbrauchsgriinden bevorzugt, 
die Leistung der einzelnen Sequenzer aufeinander abzustimmen. 
Dies kann besonders bevorzugt derart geschehen, dafi die Ar- 
beit sfrequenzen der Sequenzer aneinander angepafit werden. Aus 
PACT25 und PACT18 sind beispielsweise Verfahren bekannt, die 
eine individuelle Taktung von einzelnen PAEs oder PAE-Gruppen 
zulassen. 



wo 03/017095 



56 



PCT/EP02/10065 



Die Frequenz eines Seqiienzers kann dabei anhand der ftnzahl von 
Zyklen bestimmt werden/ die er typischeirweise zur Abarbeitung 
der ihiu zugewiesenen Fxinktion /benotigt. 

BenStigt er beispielsWeise 5 Taktzyklish zur Abarbeitung seiner 
Funktibii. wShrend dais restliche System genau. eihen Taktzyklus; 
ben5tigt, vim zugewiesene Aufgaben abzuarbeiten, sollte seine 
Taktung 5-mal heher sein als die Taktung des rest lichen Sy- 
stems. Bei einer Vielzahl von Sequenzern sind jeweils unter- 
schiedliche Takt zyklen. mSglich. Es kann eine Taktvervielfa- 
Chung und/oder eine Taktteilting vorgesehen werden. 

Funktionen werden entsprechend des vorgenannten Verfahrens 
partitioniert. Beim Partitionieren werden entsprechend Spei- 
cher ftir Daten und relevanten Status eingeftigt. Weitere alter- 
native und/oder weitergehende Verfahren sind aus PACT13 und 
PACT18 bekannt. 

Manche VPUs bieten nach PACTOl, PACTIO, PACT13, PACT17, 
PACT22, PACT24 die McJglichkeit der dif ferentiellen Rekonfigu- 
ration. Diese kann angewendet werden, wenn nur verhaltnismSBig 
wenige Anderungen innerhalb der Anordnung von PMs bei einer 
Rekonfiguration notwendig werden. Mit anderen Worten werden 
nur die VerMnderiingen einer Konfiguration gegenOber der aktu- 
ellen Konfiguration rekonf iguriert . Die Partitionierung kann 
in diesem Fall dergestalt sein/ daB die auf eine Konfiguration 
folgenden (dif ferentielle) Konfiguration nur die notwendigen 
Rekonf igurationsdaten enthSlt und keine vollstSndige Konfigu- 
ration darstellt. Der Compiler der vorliegenden Erfindung ist 
bevorzugt dazu ausgebildet, dies zu erkennen und zu unterstat- 
zen. 

Das Scheduling der Rekonfiguration kann durch den Status er- 
folgen, der Funktion(en) an eine Ladeeinheit (CT) raeldet, wel- 
che ihrerseits auf Basis des eingehenden Status die nSchste 
Konfiguration oder Teilkonf iguration auswShlt und konfigu- 
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riert. Im Detail sind derartige Verfahren aus PACTOl, PACT05, 
PACTlOr PACT13, PACT17 bekannt. 

Weiterhin kann das Scheduling die MSglichkeit des Vorladens 
von Konfigurationen. wahrend d^ Lauf zeit. einer anderen Konfi- 
guratibh untersttltzen. Dabei kdnnen mehiere Konfigurationen 
mbglicherweise auch spekulativ vdrgeladen werden^ d^h. ohne 
dafl sichergestellt ist, daB die Konfigurationen Oberhaupt be- 
notigt werden. Dies ist besonders dann bevorzugt, wenn die CT 
etwa bei langeren, konfigurationsfrei abarbeitbaren Datenstr5- 
men zumindest weitgehend unbelastet ist. und insbesondere nicht 
Oder nur wenig aufgabenbelastet ist. Durch Selektionsmechanis- 
men wie etwa nach DE 197 04 728.9 werden dann zur Laiifzeit die 
zu verwendenden Konfigurationen ausgewahlt (siehe auch.Bei- 
spiel NLS in PACT22/24) . 

Ebenfalls kannen die lokalen Sequenzer durch den Status ihrer 
Datenverarbeitung gesteuert werden, wie etwa aus DE 196 51 
075.9-53, DE 196 54 846.2-53, DE 199 26 538.0 bekannt. Zur 
Durchftihrung ihrer Rekonf iguration kaim ein weiterer abhSngi- 
ger Oder unabhSngiger Status an die CT gemeldet werden (siehe 
beispielsweise PACT04, LLBACK) . 

. Das Vorstehende wird nun lait Bezug auf weitere Figuren be- 
schrieben. Dabei werden im fol^enden folgende Zeichen zur Ver- 
einfachung der Schreibung verwendet: v Oder, a und. 

Figur 8a zeigt die Abbildung des Graphens nach Fig. 7a auf ei- 
ne Gruppe von PAEs bei maximaler erreichbarer ParallelitSt. 
S^tliche Operationen (Instruktion il-il2) sind in einzelne 
PAEs abgebildet. 

Fignr 8b zeigt denaelben Graphen, beispielsweise mit maximaler 
nutzbarer Vektorisierbarkeit . Jedoch sind die Mengen von Ope- 
rationen V2={il, 13}, V3={i4, 15, 16, 17, 18}, V4={i9, ilO, 
ill} nicht parallel par (par({2,3,4})= 1. Damit lassen sich 
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Ressourcen einsparen, indem jeweils eine Menge P2, P3, P4 von 
bperationen einer PAE zugeordnet wird. Bin Statussignal zu je- 
dem Datenwort in jeder Stufe wahlt die auszufahrende Operation 
in der jeweiligen PAE aus. DieT PAEs sind als Pipeline (Vektor) 
vernetzt und jede PAE fUhrt je TaJct eine Operation tiber je- 
weils unterschiedliche Datenwort aius. 

Es ergibt sich folgender Ablauf : 

PAEl berechnet Daten und gibt diese an PAE2 weiter. Zusammen 
mit den Daten gibt sie ein Statussignal weiter/ das anzeigt^ 
ob il Oder ±2 ausgefuhrt werden soli. 

PAB2 berechnet die Daten von PAEl weiter. Entsprechend des 
eirigehehden Statussignals wird die auszuftihrehde Operation 
(il, i2) ausgewahlt und berechnet. Entsprechend der Berechnung 
gibt PAE2 ein Statussignal an PAE3 weiter, das anzeigt, ob (i4 

V i5) V (i6 V 17 V i8) ausgeftihrt werden soli. 

PAE3 berechnet die Daten von PAE2 weiter. Entsprechend des 
eingehenden Statussignals wird die auszuftihrende Operation (14 

V i5) V (16 V 17 V 18) ausgewahlt und berechnet. Entsprechend 
der Berechnung gibt P2^3 ein Statussignal an PAE4 weiter, das 
anzeigt ob 19 v 110 v ill ausgefuhrt werden soil- 

PAE4 berechnet die Daten von PAES welter, Entsprechend des 
eingehenden Statussignals wird die auszuftihrende Operation 19 
. V iiO. v ill ausgewkhlt und berechnet. 
PAES berechnet die Daten von PAE4 weiter. 

Ein mogliches entsprechendes Verfahren und Hardware, die eine 
besonders giinstige Umsetzung des beschriebenen erlaubt, ist in 
DE 197 04 728.9 (Figuren 5 und 6) beschrieben; auch PACT04 und 
PACTIO, PACT13 beschreiben allgemein nutzbare, jedoch aufwen- 
digere Verfahren. 



Fxgur 8c zeigt wiederum denselben Graphen. In diesem Beispiel 
ist eine Vektorisierung nicht m5glich, jedoch ist PAR(p) hoch. 
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was bedeutet, daB innerhalb einer Zeile jeweils eine Vielzahl 
von Operationen gleichzeitig ausgefuhrt werden kann. Die 
parallel durchftihrbaren Operationen sind P2 - {il a i2}, P3 = 
,{i4 A 15 A 16 A 17 A 18}, P4 ^ {19 a 110 a. HI). Die PAEs slnd 
derart vezmetzt, daB sle bellebige Daten belleblg uhterelnan- 
der austauschen k5nnen. Die elnzelnen PAEs' ftlhren niir dahn 
Operationen durch, wenn Im entsprechenden Zyklus eln ILP be- 
stehtr ansonsten verhalten sle slch neutral (NOP), wobel ggf- 
He^runtertaktung und/oder eine Takt- und/oder Stromabschaltung 
zuf Mlhlmlerung' der Verlustlelstung erfolgen kanh. 
Es ist dabei folgender Ablauf vorgesehen: > 

Im ersten Zyklus arbeltet nur PAE2 und gibt die Daten an PAE2 
uhd PAE3 welter, 

Im zweiten Zyklus arbelten PAE2 und PAE3 parallel und geben 
Ihre Daten an PAEl, PAE2, PAE3, PAE4, PAES welter. 
Im dritten Zyklus arbelten PAEl, PAE2, PAE3, PAE4, PAES und 
geben die Daten an PAE2, PAE3, PAES welter • 

Im vierten Zyklus arbelten PAE2, PAES, PAES und geben die Da- 
ten an PAE2 welter. 

Im filnften Zyklus arbeltet nur PAE2- 

-Die Funktlon benotigt somlt 5 Zyklen zur Berechnung. Der ent- 
sprechende Sequenzer sollte also mit dem S-fachen Takt im Ver- 
haltnis zu seiner Umgebung arbelten, um. eine entsprechende 
Performance zu erzielen. 

Eln mcJgllches entsprechendes Verfahren list in PACT02 (Figuren 
19, 20 und 21) beschrieben; auch PACT04 und PACTIO, 13 be- 
schrelben allgemeln nutzbare, jedoch aufwendigere Verfahren. 
Weitere Verfahren und/oder Hardware slnd verwendbar. 

Fignr 8d zelgt den Graphen nach Fig. 7a ftlr den Fall, daB kel- 
nerlei nutzbare Parallelitat besteht. Zur Berechnving eines Da- 
tenwortes muB jede Stufe nacheinander durchlaufen werden. In- 
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nerhalb der Stufen wird iinmer nur genau einer der Zweige ver- 
arbeitet . 

Die Funktion benotigt ebenfalls 5 Zyklen zur Berechnung, cyl = 
(il)/ cy2 = (12 V i3) , cy3 = (14 v 15 v 16 v 17 v 18), cy4 = 
(19 V 110 V 111)/ cy5 = (112) . Der entsprechende Sequiehzer 
sbllte also ndt dem 5-f achen Takt Im Verhaitnls zu seiner Om- 
gebung arbelten, \m elne entsprechende Performance zu erzie- 
len. 

Elne derartlge Funktion ist belspielswelse ahnllch Fig. 8c 
durch einen elnfachen Sequenzer nach PACT02 ( Flguren 19, 20 
und 21).abbildbar. Auch PACT04 iind PACTIO,. 13 beschrelben all- 
gemeln nutzbare, jedoch aufwendigere Verfahren. 

Die In Flgur 8 dargestellten Abblldungen slnd belleblg mlsch- 
bar und grupplerbar. 

In Flgur 9a 1st belspielswelse dleselbe Ftinktlon dargestellt, 
bei welcher die Pfade (12 a (14 v 15) a 19) und (13 a (16 v 17 
V 18) A (19 V 110)) parallel ausfiihrbar sind. (14 v 15), 16 v 
17 V 18), (19 V 110) sind jeweils alternativ. Die Funktion ist 
welterhln vektorislerbar. Damit last sich eine Pipeline auf- 
bauen. In welcher ftir 3 PAEs (PAE4, PAE5, PAE7) jeweils anhand 
von Status slgnalen die jewelllg auszufiihrende Funktion be- 
stlinmt 1st. 

Figur 9b zelgt eln ahnllches Beispiel, bei dem elne Vektorl- 
slerung nlcht mSgllch 1st. Allerdings sind die Pfade 
(11 A 12 A (14 V 15) A 19 A 112) und (13 a (16 v 17 v 18) a 
. (110 V 111)) parallel.. Damlt laBt slch die optimale Perfor- 
mance durch den Elnsatz von zwei PAEs erzlelen, die bei die 
parallelen Pfade auch parallel abarbeiten. Die Synchronisation 
der PAEs untereinander erfolgt durch Statussignale, die vor- 
zugsweise von PAEl generlert werden, da dlese den Beginn (11) 
und das Ende (112) der Funktion berechnet. 
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Es soli besonders dafauf hingewiesen werden^ daB sich aus ei- 
ner mehrfachen Anofdnung von Sequenzem ein symetrisch par al- 
leles Prozessormodell (SMP) odfer ahnliche, heute yerwendete 
Mehrprozessoriabdelie ergeben kSnneh. 

Weiterhin soil darauf hingewiesen werden^ dafi s^mtliche Konfi- 
gurationsregister ftir das Scheduling auch im Hintergrund 
und/oder wShrend der Datenverarbeitung mit neuen Konfiguratio- 
nen geladen werden k5nnen. 

Es ist dies etwa rndglich, wenn die Hardware wie nach DE 196 51 
075-9-53 bekanntaufgebaut ist. Es stehen dann unabhSngige 
Speicherbereiche Oder Register zur Verftigung, die imabhangig 
angesprochen werden konnen. Auf bestimmte Stellen wird durch 
eingehende Trigger gesprungen, ebenfalls kann mittels Sprung 
befehlen (JMP, CALL/RET)^ die ggf. auch bedingt durchftthrbar 
sind gesprungen werden. 

GemaB DE 196 54 846.2-53 stehen unabhSngige Schreib- und Lese- 
zeiger zur Verfiigung, wodurch grundsatzlich eine Unabhangig- 
keit.und .somit die M5glichkeit des Zugriffes im Hintergrund 
gegeben ist. Insbesondere ist es raOglichy die Speicher zu seg- 
mentieren, . wodurch eihe zus^t cliche Unabhangigkeit gegeben 
ist. Mittels Sprungbefehlen (JMP, CALL/RET)^ die ggf. auch be- 
dingt durchfOhrbar sind, kann gesprungen werden. 

Nach DE 197 04 728.9 sind die einzelnen Register, die durch 
die Trigger gewahlt werden konnen, grundsltzlich unabhMngig 
und erlauben daher eine xinabhangige Konfiguration, insbesonde- 
re im Hintergrund. Sprtinge innerhalb der Register sind nicht 
moglich, die Auswahl erfolgt ausschlieBlich tiber die Trigger- 
vektoren. 
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Bin wesentlicher Faktor zur Bewertung der Effizienz von PAR 
und VEC iat die Art der Daten die diirch die. jeweilige Struktur 
verarbeitet werdeh. Beispielsweise ist es lohhen eine Struktur 
auszuwalzen, also zu pipelinerf und oder parallelisieren, die 
eine grbfle Menc|e vori Daten verarbeitet; wie es z.B. bei Video- 
daten odef Telekomdateri der Fair ist. Stfuktufen die weiiige 
Daten verarbeiten (z.B. Tastatureingabe, Maus^ etc.) lohnen 
sich nicht ausgewalzt zu werden, im Gegenteil sie vriirden nur 
anderen Algorithmen die Ressourcen blockieren. 

Somit wird vorgeschlagen anhand unterschiedlicher Hinweise nur 
die Algorithmen^ Strukturen oder *eile von Algorithmen zu par- 
allelisiern und vektorisieren, die entsprechend groBe Daten- 
mengen Verarbeiten. 

Derartige Hinweise k5nnen beispielsweise sein: 

1. Der Datentyp (Arrays, Streams sollten z.B. aufgrund der ho- 
hen Datenmenge eher ausgewalzt werden als z.B. einzelne Zei- 
chen) . 

2. Die Art des Zugriffes (lineare Programmabfolgen sollten 
z.B. in Sequenzer abgebildet werden, wahrend Schleifen sich 
•z.B. aufgrund der hohen Anzahl von Durchlaufen zum Auswalzen 
Ibhnen. 

3. Die Art der Quelle und/oder des Ziels (Tastatur und Maus 
haben z.B. eine zu geringe. Datenrate. um ef f izient ausgew-alzt 
zu werden, dagegen ist z.B. die Datehrate bei Netzwerk 
und/oder Video Quellen oder Zielen deutlich hOher) . 

Fur die Analyse kOnnen dabei eine beliebige Menge dieser Hin- 
weise hinzugezogen werden. 



7. Beqriffsdefinition 
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Zustand, der nur innerhalb ei- 
ner bestimmten Konf iguration 
relevant ist; 



global reievanter Zustand 



Ziistarid/ der in mehrereh Kon- 
figurationen relevant ist und 
zwischen den Konf igurationen * 
ausgetauscht werden muB; 



relevanter Zustand 



Zustand, der innerhalb. eines 
Algorithmus zu dessen korrek- 
ter Ausf (ihrung dessen benatigt 
wird und somit durch den Algo- 
rithmus beschrieben ist und 
davon verwendet wird; 



xrrelevanter Zustand 



Zustand, der fttr den eigentli- 
chen Algorithmus ohne Bedeu- 
tung ist und auch nicht im Al- 
gorithmus beschrieben ist, der 
jedoch von der ausftlhrenden 
Hardware implement ierungsab- 
hSngig bendtigt wird 
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1. Verfahren zum Obersetzen yfon Hochsprachen auf rekonfigu- 
rierbare Architekturen, dadurch gekennzeichnet, daB ein 
endlicher ^Automkt ziir BerechnUng. derart aufgebaut wird, dafi 
ein komplexes kombinatorisches Netz aus einzelnen Funktio- 
nen gebildet wird und dem Netz Speicher zur Speicherung der 

- Operanden und Ergebnissen zugeordnet sind. 

2. Verfahren zuim Datenbe- und/oder verarbeitung mit einem mul-. 
tidimensionaien Feld mit rekonfigurierbaren ALUs, dadurch 
gekennzeichnet, daB ein Hochsprachencode vorgesehen und 
derart tibersetzt wird, daB ein endlicher Automat zur Be-, 
rechnung aufgebaut wird, wobei ein komplexes kombinatori- 
sches Netz aus einzelnen Funktionen gebildet und dem Netz 
Speicher zur Speicherung der Operanden und/oder Ergebnisse 
zugeordnet werden. 

3. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, daB das kon^lexe kombinatorische Netz so 
aufgebaut und/oder zerlegt wird, daB die PAE-Matrix m5g- , 
lichst lange ohne Rekonfiguration betrieben wird. 

4^ Verfahreii nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daB komplexe Instruktionen bestimmt werden, urn 
das komplexe kombinatorische Netz so aufzubauen und/oder zu 
zerlegen, daB die PAE-Matrix -mSglichst lange ohne Rekonfi- 
guration betrieben wird. 

5. Verfahren nach einem der vorhergehenden Ansprttche, dadurch 
gekennzeichnet, daB ein endlicher Automat direkt aus impe- 
rativem Quelltext aufgebaut wird. 
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6. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, daB ein endlicher Automat aus an grobgranu- 
lare Logikkreise und/oder an vorhandene feingranulare Ele- 
mente (FPGA-Zellen in der A^PU, statemachines etc.) angepaB- 
te Op^rationeh aufgebaut wird, irisbesondere ausschlieBlich 
an solche. ... 

7. Verfahren nach einem der vorhergehenden Ansprucher dadurch 
gekennzeichnetr daB ein endlicher Automat dann in Konfigu- 
rationen zerlegt wird. 

8. Verfahren nach einem der vorhergehenden Ansprtiche^ dadurch 
gekeniizeichnet, daB generierte Konfiguratibnen succesive 
auf die PAE-Matrix abgebildet werden und Arbeitsdaten 
und/oder ZustSnde, die zwischen den Konf igurationen zu 
ttbertragen sind, in Speicher abgelegt werden. 

9. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet/ dafl der Speicher vom Compiler bestimmt bezie- 
htingsweise vorgesehen wird. 

10. Verfahren nach dem vorhergehenden Anspruch, dadurch gekenn- 
zeichnet, daB wShrend einer Konf igurat ion Daten aus einer 
VPD externen Quelle imd/oder einem internen Speicher verar- 
beitet und an eine exteme Quelle und/oder einen internen 
Speicher geschrieben werden. 

11. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, daB ein Speicher ftir einen gesamten Daten- 
satz vorgesehen wird, der umfangreicher als ein einzelnes 
Datenwort ist. 

12. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet/ daB bei Verarbeitung einer ablaufenden Kon 
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figuration Daten con?>ilerbestimnit in die Speicher abgelegt 
werden. 

13 • Verfahren nach einem der Tjtjrhergehenden Ansprtiche, dadurch 
gekennzeichnet^ dafi ein Speichier far Operanden, ein Spei- 
cher ftif Ergebnissie und ein Netzwerk aus Zuweisungen 
und/oder Vergleichen-Anweisungenr also Bedingungen wie z.B. 
IF, CASE, Schleifen (WHILE, FOR, REPEAT) sowie optionalen 
Adressgenerator (en) zur Ansteuerung der Speicher mit dem 
Automaten vorgesehen werden. 

14. Verfahren nach einem der vorhergelienden 2\nspr<iche, dadurch 
gekennzeichnet, daB ZiistSlndeh wie ^rf brdeflich Speicher zu- 
geordnet werden, und hierbei zwischen algorithmisch rele- 
vanten und irrelevanten ZustSnden unterschieden wird, ins- 
besondere solchen relevanten Zustanden, die innerhalb des 
Algorithmus notwendig urn dessen korrekte Funktion zu be- 
schreiben und solchen irrelevante Zustande, die durch die 
verwendete Hardware und/oder die gewShlte Abbildung oder 
aus anderen sekundSren Griinden entstehen. 

15. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, daB Load/Store Operationen unter Vorsehen 
einer externen Adressierung, also des Datentransfers .mit , 
externen Baugruppen und einer interne Adressierung, also 
die Datentransfers zwischen PAEs, i.b. zwischen RAM-PAEs 
und ALU-PAEs vorgesehen werden. 

16. Verfahren nach einem der vorhergehenden Anspriiche, dadurch 
gekennzeichnet, daB bei der Datenverarbeitung eine erste 
Konfiguration entfernt wird und die zu sichernden Daten in 
entsprechenden Speichern (REG) (Speicher, Register, Zahler, 
etc) verbleiben. 
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17. Verfahren nach einem der vorhergehenden Ansprache/ dadurch 
gekennzeichnet, dafi die erste Konfiguration wieder geladen 

. wird tuid .auf die zuvo.r gesicherterten, ihr zugeordnete Da- 
ten zugreift. 

18. Verfahren nach einem der vorhergehenden Ahsprttche, dadurch 
gekennzeichnet, dafl fUr den Zugriff auf zuvor gesicherterte 

. Daten eine zweite Konfiguration geladen wird, die die REG 
in geeigneter Weise und def inierter Reihenf olge loit einem 
Oder mehreren globalen Speicher{n) verbindet, insbesondere/ 
um unter Verwendung von Adressgeneratoren auf den/die glo- 
balen Speicher zuzugreifen, wobei der Adressgenerator die 
Adresseh ftir den/die globalen Speicher (n) bevorzugt derart 
generiert, dass die beschriebenen Speicherbereiche (PUSHA- 
REA) der entfernten ersten Konfiguration eindeutig zugeord- 
net werden konnen. 

' 19. Verfahren nach einem der vorhergehenden IVnspruche, dadurch 
gekennzeichnet, dalJ automatisch Transformation zur Repra- 
sentation der Parallelisier- bzw. Vektorisierbarkeit (Par- 
Vec-Transformation) durchgefiihrt werden und/oder VEC und 
PAR-Anteile als Petri-Netz ausgestaltet werden, um wie ber 
vorzugt die Weiterverarbeitung nach koinpletter Verarbeitung 
■;■ .. der jeweiligen Inhalte zu steuerii* . 

20. Verfahren nach einem der vorhergehenden Ansprtiche, dadurch 
gekennzeichnet, dafi 

arithmetisch/logische Befehle direkt in das kombinatorische 
Netz abgebildet werden und/oder 

Sprtinge (Jump/Call) entweder direkt in das kombinatorische 
Netz ausgewalzt und/oder durch Rekonfiguration realisiert 
werden und/oder 

Bedingungen und Kontrollf luBbefehle (if, etc) entweder im 
kombinatorischen Netz vollstSndig aufgelost und /oder bear- 
beitet werden und/oder an eine Ubergeordnete Konfigurati- 
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onseinheit weitergeleitet werden, die sodann entsprechend 
des entstandenen Status eine Rekonfiguration durchfiihrt 
und/od'er 

Load/Store-Operationen in /Separate Konfigurationen abgebil- 
det und/bdef durch Adressgeneratoren realisiert werderi, diie 
interhen Speicher .(REG{ )) Mttel^^^ 

terne Speicher schreiben und/oder diese von externen Spei- 
chern und/oder Peripherie laden und/oder 
Register-Move-Operationen im kombinatorischen Netz durch 
Busse zwischen den internen Speichem (REG{}) realisiert 
werden und/oder 

Push/Pop-Operationen durch separate Konfigurationen reali- 
siert werden, die bestimmte interne Register im kombinato- 
rischen Netz und/oder die internen Speicher (REG{)) mittels 
Adressgeneratoren in externe Speicher schreiben oder aus 
externen Speichem lesen und die bevorzugt vor oder nach 
den eigentlichen datenverarbeitenden Konfigurationen ausge- 
fiihrt werden. 
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